jpskill.com
🛠️ 開発・MCP コミュニティ 🔴 エンジニア向け 👤 エンジニア・AI開発者

🛠️ Observability Designer

observability-designer

システムの動作状況を把握しやすくするために、設計段階から監視・分析の仕組みを組み込み、問題発生時の原因特定や解決を効率化するSkill。

⏱ MCPサーバー実装 1日 → 2時間
📜 元の英語説明(参考)

Observability Designer (POWERFUL)

🇯🇵 日本人クリエイター向け解説

一言でいうと

システムの動作状況を把握しやすくするために、設計段階から監視・分析の仕組みを組み込み、問題発生時の原因特定や解決を効率化するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o observability-designer.zip https://jpskill.com/download/5122.zip && unzip -o observability-designer.zip && rm observability-designer.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/5122.zip -OutFile "$d\observability-designer.zip"; Expand-Archive "$d\observability-designer.zip" -DestinationPath $d -Force; ri "$d\observability-designer.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して observability-designer.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → observability-designer フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-18
同梱ファイル
11

💬 こう話しかけるだけ — サンプルプロンプト

  • Observability Designer を使って、最小構成のサンプルコードを示して
  • Observability Designer の主な使い方と注意点を教えて
  • Observability Designer を既存プロジェクトに組み込む方法を教えて

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Observability Designer (POWERFUL)

カテゴリ: エンジニアリング
ティア: POWERFUL
説明: SLI/SLOフレームワーク、アラート最適化、ダッシュボード生成を含む、本番システム向けの包括的なオブザーバビリティ戦略を設計します。

概要

Observability Designerは、システム動作、パフォーマンス、信頼性に関する深い洞察を提供する、本番環境に対応したオブザーバビリティ戦略を作成することを可能にします。このスキルは、オブザーバビリティの3つの柱(メトリクス、ログ、トレース)と、SLI/SLO設計、ゴールデンシグナル監視、アラート最適化といった実績のあるフレームワークを組み合わせ、包括的なオブザーバビリティソリューションを作成します。

主要な能力

SLI/SLO/SLAフレームワーク設計

  • サービスレベル指標 (SLI): サービスの状態を示す測定可能なシグナルを定義します
  • サービスレベル目標 (SLO): ユーザーエクスペリエンスに基づいて信頼性目標を設定します
  • サービスレベル契約 (SLA): 結果を伴う顧客向けのコミットメントを確立します
  • エラーバジェット管理: エラーバジェットの消費量を計算し、追跡します
  • バーンレートアラート: プロアクティブなSLO保護のためのマルチウィンドウバーンレートアラート

オブザーバビリティの3つの柱

メトリクス

  • ゴールデンシグナル: レイテンシ、トラフィック、エラー、飽和の監視
  • REDメソッド: リクエスト駆動型サービスのためのRate、Errors、Duration
  • USEメソッド: リソース監視のためのUtilization、Saturation、Errors
  • ビジネスメトリクス: 収益、ユーザーエンゲージメント、機能採用の追跡
  • インフラストラクチャメトリクス: CPU、メモリ、ディスク、ネットワーク、カスタムリソースメトリクス

ログ

  • 構造化ロギング: 一貫したフィールドを持つJSONベースのログ形式
  • ログ集約: 集中型ログ収集およびインデックス作成戦略
  • ログレベル: DEBUG、INFO、WARN、ERROR、FATALレベルの適切な使用
  • 相関ID: 分散システムを介したリクエストのトレース
  • ログサンプリング: 高スループットシステムのためのボリューム管理

トレース

  • 分散トレース: エンドツーエンドのリクエストフローの可視化
  • スパン設計: 意味のあるスパン境界とメタデータ
  • トレースサンプリング: パフォーマンスとコストのためのインテリジェントなサンプリング戦略
  • サービスマップ: トレースによる自動依存関係検出
  • 根本原因分析: トレース駆動型デバッグワークフロー

ダッシュボード設計原則

情報アーキテクチャ

  • 階層: 概要 → サービス → コンポーネント → インスタンスのドリルダウンパス
  • 黄金比: 80%の運用メトリクス、20%の探索的メトリクス
  • 認知負荷: ダッシュボード画面あたり最大7±2パネル
  • ユーザージャーニー: ロールベースのダッシュボードペルソナ(SRE、開発者、エグゼクティブ)

可視化のベストプラクティス

  • チャート選択: トレンドには時系列、分布にはヒートマップ、ステータスにはゲージ
  • 色彩理論: 危機的状況には赤、警告には琥珀色、健全な状態には緑
  • 参照線: SLO目標、容量しきい値、履歴ベースライン
  • 時間範囲: 意味のあるウィンドウをデフォルトに設定(インシデントには4時間、トレンドには7日間)

パネル設計

  • メトリクスクエリ: 適切な集計を用いた効率的なPrometheus/InfluxDBクエリ
  • アラート統合: 関連するパネル上の視覚的なアラート状態インジケータ
  • インタラクティブ要素: テンプレート変数、ドリルダウンリンク、注釈オーバーレイ
  • パフォーマンス: クエリ最適化による1秒未満のレンダリング時間

アラート設計と最適化

アラート分類

  • 重大度レベル:
    • クリティカル: サービス停止、SLOバーンレートが高い
    • 警告: しきい値に近づいている、ユーザーに影響しない問題
    • 情報: デプロイ通知、キャパシティプランニングアラート
  • アクション可能性: すべてのアラートには明確な対応アクションが必要です
  • アラートルート: 重大度とチームの所有権に基づくエスカレーションポリシー

アラート疲労防止

  • シグナル対ノイズ: 高い再現率よりも高い精度(誤検知が少ない)
  • ヒステリシス: アラートの発報と解決で異なるしきい値
  • 抑制: 既知の停止中の依存アラートの抑制
  • グループ化: 関連するアラートを単一の通知にグループ化

アラートルール設計

  • しきい値選択: しきい値決定のための統計的手法
  • ウィンドウ関数: 適切な平均化ウィンドウとパーセンタイル計算
  • アラートライフサイクル: 明確な発報条件と自動解決基準
  • テスト: 履歴データに対するアラートルールの検証

ランブック生成とインシデント対応

ランブック構造

  • アラートコンテキスト: アラートの意味と発報理由
  • 影響評価: ユーザー向けと内部向けの影響評価
  • 調査手順: 時間見積もりを含む順序付けられたトラブルシューティング手順
  • 解決アクション: 一般的な修正とエスカレーション手順
  • インシデント後: フォローアップタスクと予防策

インシデント検出パターン

  • 異常検出: 異常なパターンを検出するための統計的手法
  • 複合アラート: 複雑な障害モードのためのマルチシグナルアラート
  • 予測アラート: 容量とトレンドに基づく将来予測アラート
  • カナリア監視: 段階的なデプロイ監視による早期検出

ゴールデンシグナルフレームワーク

レイテンシ監視

  • リクエストレイテンシ: P50、P95、P99応答時間の追跡
  • キューレイテンシ: 処理キューでの待機時間
  • ネットワークレイテンシ: サービス間通信の遅延
  • データベースレイテンシ: クエリ実行と接続プールメトリクス

トラフィック監視

  • リクエストレート: バースト検出を伴う1秒あたりのリクエスト数
  • 帯域幅使用量: ネットワークスループットと容量利用率
  • ユーザーセッション: アクティブユーザーの追跡とセッション期間
  • 機能使用状況: APIエンドポイントと機能採用メトリクス

エラー監視

  • エラーレート: 4xxおよび5xx HTTP応答コードの追跡
  • エラーバジェット: SLOベースのエラーレート目標と消費
  • エラー分布: エラータイプの分類とトレンド
  • サイレント障害: Hなしの処理障害の検出
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Observability Designer (POWERFUL)

Category: Engineering
Tier: POWERFUL
Description: Design comprehensive observability strategies for production systems including SLI/SLO frameworks, alerting optimization, and dashboard generation.

Overview

Observability Designer enables you to create production-ready observability strategies that provide deep insights into system behavior, performance, and reliability. This skill combines the three pillars of observability (metrics, logs, traces) with proven frameworks like SLI/SLO design, golden signals monitoring, and alert optimization to create comprehensive observability solutions.

Core Competencies

SLI/SLO/SLA Framework Design

  • Service Level Indicators (SLI): Define measurable signals that indicate service health
  • Service Level Objectives (SLO): Set reliability targets based on user experience
  • Service Level Agreements (SLA): Establish customer-facing commitments with consequences
  • Error Budget Management: Calculate and track error budget consumption
  • Burn Rate Alerting: Multi-window burn rate alerts for proactive SLO protection

Three Pillars of Observability

Metrics

  • Golden Signals: Latency, traffic, errors, and saturation monitoring
  • RED Method: Rate, Errors, and Duration for request-driven services
  • USE Method: Utilization, Saturation, and Errors for resource monitoring
  • Business Metrics: Revenue, user engagement, and feature adoption tracking
  • Infrastructure Metrics: CPU, memory, disk, network, and custom resource metrics

Logs

  • Structured Logging: JSON-based log formats with consistent fields
  • Log Aggregation: Centralized log collection and indexing strategies
  • Log Levels: Appropriate use of DEBUG, INFO, WARN, ERROR, FATAL levels
  • Correlation IDs: Request tracing through distributed systems
  • Log Sampling: Volume management for high-throughput systems

Traces

  • Distributed Tracing: End-to-end request flow visualization
  • Span Design: Meaningful span boundaries and metadata
  • Trace Sampling: Intelligent sampling strategies for performance and cost
  • Service Maps: Automatic dependency discovery through traces
  • Root Cause Analysis: Trace-driven debugging workflows

Dashboard Design Principles

Information Architecture

  • Hierarchy: Overview → Service → Component → Instance drill-down paths
  • Golden Ratio: 80% operational metrics, 20% exploratory metrics
  • Cognitive Load: Maximum 7±2 panels per dashboard screen
  • User Journey: Role-based dashboard personas (SRE, Developer, Executive)

Visualization Best Practices

  • Chart Selection: Time series for trends, heatmaps for distributions, gauges for status
  • Color Theory: Red for critical, amber for warning, green for healthy states
  • Reference Lines: SLO targets, capacity thresholds, and historical baselines
  • Time Ranges: Default to meaningful windows (4h for incidents, 7d for trends)

Panel Design

  • Metric Queries: Efficient Prometheus/InfluxDB queries with proper aggregation
  • Alerting Integration: Visual alert state indicators on relevant panels
  • Interactive Elements: Template variables, drill-down links, and annotation overlays
  • Performance: Sub-second render times through query optimization

Alert Design and Optimization

Alert Classification

  • Severity Levels:
    • Critical: Service down, SLO burn rate high
    • Warning: Approaching thresholds, non-user-facing issues
    • Info: Deployment notifications, capacity planning alerts
  • Actionability: Every alert must have a clear response action
  • Alert Routing: Escalation policies based on severity and team ownership

Alert Fatigue Prevention

  • Signal vs Noise: High precision (few false positives) over high recall
  • Hysteresis: Different thresholds for firing and resolving alerts
  • Suppression: Dependent alert suppression during known outages
  • Grouping: Related alerts grouped into single notifications

Alert Rule Design

  • Threshold Selection: Statistical methods for threshold determination
  • Window Functions: Appropriate averaging windows and percentile calculations
  • Alert Lifecycle: Clear firing conditions and automatic resolution criteria
  • Testing: Alert rule validation against historical data

Runbook Generation and Incident Response

Runbook Structure

  • Alert Context: What the alert means and why it fired
  • Impact Assessment: User-facing vs internal impact evaluation
  • Investigation Steps: Ordered troubleshooting procedures with time estimates
  • Resolution Actions: Common fixes and escalation procedures
  • Post-Incident: Follow-up tasks and prevention measures

Incident Detection Patterns

  • Anomaly Detection: Statistical methods for detecting unusual patterns
  • Composite Alerts: Multi-signal alerts for complex failure modes
  • Predictive Alerts: Capacity and trend-based forward-looking alerts
  • Canary Monitoring: Early detection through progressive deployment monitoring

Golden Signals Framework

Latency Monitoring

  • Request Latency: P50, P95, P99 response time tracking
  • Queue Latency: Time spent waiting in processing queues
  • Network Latency: Inter-service communication delays
  • Database Latency: Query execution and connection pool metrics

Traffic Monitoring

  • Request Rate: Requests per second with burst detection
  • Bandwidth Usage: Network throughput and capacity utilization
  • User Sessions: Active user tracking and session duration
  • Feature Usage: API endpoint and feature adoption metrics

Error Monitoring

  • Error Rate: 4xx and 5xx HTTP response code tracking
  • Error Budget: SLO-based error rate targets and consumption
  • Error Distribution: Error type classification and trending
  • Silent Failures: Detection of processing failures without HTTP errors

Saturation Monitoring

  • Resource Utilization: CPU, memory, disk, and network usage
  • Queue Depth: Processing queue length and wait times
  • Connection Pools: Database and service connection saturation
  • Rate Limiting: API throttling and quota exhaustion tracking

Distributed Tracing Strategies

Trace Architecture

  • Sampling Strategy: Head-based, tail-based, and adaptive sampling
  • Trace Propagation: Context propagation across service boundaries
  • Span Correlation: Parent-child relationship modeling
  • Trace Storage: Retention policies and storage optimization

Service Instrumentation

  • Auto-Instrumentation: Framework-based automatic trace generation
  • Manual Instrumentation: Custom span creation for business logic
  • Baggage Handling: Cross-cutting concern propagation
  • Performance Impact: Instrumentation overhead measurement and optimization

Log Aggregation Patterns

Collection Architecture

  • Agent Deployment: Log shipping agent strategies (push vs pull)
  • Log Routing: Topic-based routing and filtering
  • Parsing Strategies: Structured vs unstructured log handling
  • Schema Evolution: Log format versioning and migration

Storage and Indexing

  • Index Design: Optimized field indexing for common query patterns
  • Retention Policies: Time and volume-based log retention
  • Compression: Log data compression and archival strategies
  • Search Performance: Query optimization and result caching

Cost Optimization for Observability

Data Management

  • Metric Retention: Tiered retention based on metric importance
  • Log Sampling: Intelligent sampling to reduce ingestion costs
  • Trace Sampling: Cost-effective trace collection strategies
  • Data Archival: Cold storage for historical observability data

Resource Optimization

  • Query Efficiency: Optimized metric and log queries
  • Storage Costs: Appropriate storage tiers for different data types
  • Ingestion Rate Limiting: Controlled data ingestion to manage costs
  • Cardinality Management: High-cardinality metric detection and mitigation

Scripts Overview

This skill includes three powerful Python scripts for comprehensive observability design:

1. SLO Designer (slo_designer.py)

Generates complete SLI/SLO frameworks based on service characteristics:

  • Input: Service description JSON (type, criticality, dependencies)
  • Output: SLI definitions, SLO targets, error budgets, burn rate alerts, SLA recommendations
  • Features: Multi-window burn rate calculations, error budget policies, alert rule generation

2. Alert Optimizer (alert_optimizer.py)

Analyzes and optimizes existing alert configurations:

  • Input: Alert configuration JSON with rules, thresholds, and routing
  • Output: Optimization report and improved alert configuration
  • Features: Noise detection, coverage gaps, duplicate identification, threshold optimization

3. Dashboard Generator (dashboard_generator.py)

Creates comprehensive dashboard specifications:

  • Input: Service/system description JSON
  • Output: Grafana-compatible dashboard JSON and documentation
  • Features: Golden signals coverage, RED/USE methods, drill-down paths, role-based views

Integration Patterns

Monitoring Stack Integration

  • Prometheus: Metric collection and alerting rule generation
  • Grafana: Dashboard creation and visualization configuration
  • Elasticsearch/Kibana: Log analysis and dashboard integration
  • Jaeger/Zipkin: Distributed tracing configuration and analysis

CI/CD Integration

  • Pipeline Monitoring: Build, test, and deployment observability
  • Deployment Correlation: Release impact tracking and rollback triggers
  • Feature Flag Monitoring: A/B test and feature rollout observability
  • Performance Regression: Automated performance monitoring in pipelines

Incident Management Integration

  • PagerDuty/VictorOps: Alert routing and escalation policies
  • Slack/Teams: Notification and collaboration integration
  • JIRA/ServiceNow: Incident tracking and resolution workflows
  • Post-Mortem: Automated incident analysis and improvement tracking

Advanced Patterns

Multi-Cloud Observability

  • Cross-Cloud Metrics: Unified metrics across AWS, GCP, Azure
  • Network Observability: Inter-cloud connectivity monitoring
  • Cost Attribution: Cloud resource cost tracking and optimization
  • Compliance Monitoring: Security and compliance posture tracking

Microservices Observability

  • Service Mesh Integration: Istio/Linkerd observability configuration
  • API Gateway Monitoring: Request routing and rate limiting observability
  • Container Orchestration: Kubernetes cluster and workload monitoring
  • Service Discovery: Dynamic service monitoring and health checks

Machine Learning Observability

  • Model Performance: Accuracy, drift, and bias monitoring
  • Feature Store Monitoring: Feature quality and freshness tracking
  • Pipeline Observability: ML pipeline execution and performance monitoring
  • A/B Test Analysis: Statistical significance and business impact measurement

Best Practices

Organizational Alignment

  • SLO Setting: Collaborative target setting between product and engineering
  • Alert Ownership: Clear escalation paths and team responsibilities
  • Dashboard Governance: Centralized dashboard management and standards
  • Training Programs: Team education on observability tools and practices

Technical Excellence

  • Infrastructure as Code: Observability configuration version control
  • Testing Strategy: Alert rule testing and dashboard validation
  • Performance Monitoring: Observability system performance tracking
  • Security Considerations: Access control and data privacy in observability

Continuous Improvement

  • Metrics Review: Regular SLI/SLO effectiveness assessment
  • Alert Tuning: Ongoing alert threshold and routing optimization
  • Dashboard Evolution: User feedback-driven dashboard improvements
  • Tool Evaluation: Regular assessment of observability tool effectiveness

Success Metrics

Operational Metrics

  • Mean Time to Detection (MTTD): How quickly issues are identified
  • Mean Time to Resolution (MTTR): Time from detection to resolution
  • Alert Precision: Percentage of actionable alerts
  • SLO Achievement: Percentage of SLO targets met consistently

Business Metrics

  • System Reliability: Overall uptime and user experience quality
  • Engineering Velocity: Development team productivity and deployment frequency
  • Cost Efficiency: Observability cost as percentage of infrastructure spend
  • Customer Satisfaction: User-reported reliability and performance satisfaction

This comprehensive observability design skill enables organizations to build robust, scalable monitoring and alerting systems that provide actionable insights while maintaining cost efficiency and operational excellence.

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。