jpskill.com
💼 ビジネス コミュニティ

performance-monitor

AIエージェントのトークン使用量や応答速度、品質などを詳細に分析し、コスト削減や性能向上を支援するSkill。

📜 元の英語説明(参考)

Expert in observing, benchmarking, and optimizing AI agents. Specializes in token usage tracking, latency analysis, and quality evaluation metrics. Use when optimizing agent costs, measuring performance, or implementing evals. Triggers include "agent performance", "token usage", "latency optimization", "eval", "agent metrics", "cost optimization", "agent benchmarking".

🇯🇵 日本人クリエイター向け解説

一言でいうと

AIエージェントのトークン使用量や応答速度、品質などを詳細に分析し、コスト削減や性能向上を支援するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

パフォーマンスモニター

目的

AIエージェントのパフォーマンス監視、ベンチマーク、最適化に関する専門知識を提供します。トークン使用量の追跡、レイテンシー分析、コスト最適化、AIシステム向け品質評価指標(evals)の実装を専門としています。

使用する場面

  • AIエージェントのトークン使用量とコストを追跡する場合
  • エージェントのレイテンシーを測定し最適化する場合
  • 評価指標(evals)を実装する場合
  • エージェントの品質と精度をベンチマークする場合
  • エージェントのコスト効率を最適化する場合
  • AIパイプラインの可観測性を構築する場合
  • エージェントの会話パターンを分析する場合
  • エージェントのA/Bテストをセットアップする場合

クイックスタート

このスキルを呼び出すのは、次の場合です。

  • AIエージェントのコストとトークン使用量を最適化する場合
  • エージェントのレイテンシーとパフォーマンスを測定する場合
  • 評価フレームワークを実装する場合
  • AIシステムの可観測性を構築する場合
  • エージェントの品質をベンチマークする場合

呼び出さないのは、次の場合です。

  • 一般的なアプリケーションパフォーマンス → /performance-engineer を使用してください
  • インフラストラクチャ監視 → /sre-engineer を使用してください
  • MLモデルトレーニングの最適化 → /ml-engineer を使用してください
  • プロンプト設計 → /prompt-engineer を使用してください

意思決定フレームワーク

Optimization Goal?
├── Cost Reduction
│   ├── Token usage → Prompt optimization
│   └── API calls → Caching, batching
├── Latency
│   ├── Time to first token → Streaming
│   └── Total response time → Model selection
├── Quality
│   ├── Accuracy → Evals with ground truth
│   └── Consistency → Multiple run analysis
└── Reliability
    └── Error rates, retry patterns

主要なワークフロー

1. トークン使用量の追跡

  1. API呼び出しを計測して使用量をキャプチャします
  2. 入力トークンと出力トークンを個別に追跡します
  3. エージェント、タスク、ユーザーごとに集計します
  4. 操作ごとのコストを計算します
  5. 可視化のためのダッシュボードを構築します
  6. 異常な使用量に対してアラートを設定します

2. 評価フレームワークのセットアップ

  1. 評価基準を定義します
  2. 期待される出力を含むテストデータセットを作成します
  3. スコアリング関数を実装します
  4. 自動評価パイプラインを実行します
  5. スコアを時系列で追跡します
  6. 回帰テストに使用します

3. レイテンシーの最適化

  1. ベースラインのレイテンシーを測定します
  2. ボトルネック(モデル、ネットワーク、パース)を特定します
  3. 該当する場合はストリーミングを実装します
  4. プロンプトの長さを最適化します
  5. モデルサイズのトレードオフを考慮します
  6. 繰り返されるクエリのためにキャッシュを追加します

ベストプラクティス

  • トークンはAPI呼び出し回数とは別に追跡します
  • 最適化の前に評価を実装します
  • レイテンシーには平均ではなくパーセンタイル(p50、p95、p99)を使用します
  • デバッグのためにプロンプトとレスポンスをログに記録します
  • コスト予算とアラートを設定します
  • プロンプトをバージョン管理し、バージョンごとのパフォーマンスを追跡します

アンチパターン

アンチパターン 問題点 正しいアプローチ
トークン追跡なし 予期せぬコスト すべての呼び出しを計測する
評価なしの最適化 品質低下 最適化の前に測定する
平均のみのレイテンシー テールレイテンシーを隠す パーセンタイルを使用する
プロンプトのバージョン管理なし 変更を関連付けられない バージョン管理して追跡する
キャッシュの無視 繰り返されるコスト 安定したレスポンスをキャッシュする
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Performance Monitor

Purpose

Provides expertise in monitoring, benchmarking, and optimizing AI agent performance. Specializes in token usage tracking, latency analysis, cost optimization, and implementing quality evaluation metrics (evals) for AI systems.

When to Use

  • Tracking token usage and costs for AI agents
  • Measuring and optimizing agent latency
  • Implementing evaluation metrics (evals)
  • Benchmarking agent quality and accuracy
  • Optimizing agent cost efficiency
  • Building observability for AI pipelines
  • Analyzing agent conversation patterns
  • Setting up A/B testing for agents

Quick Start

Invoke this skill when:

  • Optimizing AI agent costs and token usage
  • Measuring agent latency and performance
  • Implementing evaluation frameworks
  • Building observability for AI systems
  • Benchmarking agent quality

Do NOT invoke when:

  • General application performance → use /performance-engineer
  • Infrastructure monitoring → use /sre-engineer
  • ML model training optimization → use /ml-engineer
  • Prompt design → use /prompt-engineer

Decision Framework

Optimization Goal?
├── Cost Reduction
│   ├── Token usage → Prompt optimization
│   └── API calls → Caching, batching
├── Latency
│   ├── Time to first token → Streaming
│   └── Total response time → Model selection
├── Quality
│   ├── Accuracy → Evals with ground truth
│   └── Consistency → Multiple run analysis
└── Reliability
    └── Error rates, retry patterns

Core Workflows

1. Token Usage Tracking

  1. Instrument API calls to capture usage
  2. Track input vs output tokens separately
  3. Aggregate by agent, task, user
  4. Calculate costs per operation
  5. Build dashboards for visibility
  6. Set alerts for anomalous usage

2. Eval Framework Setup

  1. Define evaluation criteria
  2. Create test dataset with expected outputs
  3. Implement scoring functions
  4. Run automated eval pipeline
  5. Track scores over time
  6. Use for regression testing

3. Latency Optimization

  1. Measure baseline latency
  2. Identify bottlenecks (model, network, parsing)
  3. Implement streaming where applicable
  4. Optimize prompt length
  5. Consider model size tradeoffs
  6. Add caching for repeated queries

Best Practices

  • Track tokens separately from API call counts
  • Implement evals before optimizing
  • Use percentiles (p50, p95, p99) not averages for latency
  • Log prompt and response for debugging
  • Set cost budgets and alerts
  • Version prompts and track performance per version

Anti-Patterns

Anti-Pattern Problem Correct Approach
No token tracking Surprise costs Instrument all calls
Optimizing without evals Quality regression Measure before optimizing
Average-only latency Hides tail latency Use percentiles
No prompt versioning Can't correlate changes Version and track
Ignoring caching Repeated costs Cache stable responses