🛠️ 開発・MCP コミュニティ

淘宝のデスクトップ版MCPツールを体系的にテストし、機能の評価や検証を行い、専門的な技術評価レポートを作成することで、品質向上や改善に役立てるSkill。

taobao-mcp-benchmark

淘宝デスクトップ版MCPツールの機能評価やテスト、受け入れ、反復検証を体系的に行うためのSkill。

📜 元の英語説明(参考)

淘宝桌面版MCP工具评测框架。用于系统化测试MCP工具的各项功能，生成专业的技术评测报告。Use when 需要对淘宝MCP工具进行评测、测试、验收、迭代验证。

🇯🇵 日本人クリエイター向け解説

一言でいうと

淘宝デスクトップ版MCPツールの機能評価やテスト、受け入れ、反復検証を体系的に行うためのSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o taobao-mcp-benchmark.zip https://jpskill.com/download/5460.zip && unzip -o taobao-mcp-benchmark.zip && rm taobao-mcp-benchmark.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/5460.zip -OutFile "$d\taobao-mcp-benchmark.zip"; Expand-Archive "$d\taobao-mcp-benchmark.zip" -DestinationPath $d -Force; ri "$d\taobao-mcp-benchmark.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して taobao-mcp-benchmark.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → taobao-mcp-benchmark フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-17
取得日時: 2026-05-18
同梱ファイル: 4

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

[Skill 名] taobao-mcp-benchmark

淘宝デスクトップ版MCP評価フレームワーク

概要

本スキルは、淘宝デスクトップ版MCPツールの各機能をテストし、専門的な技術評価レポートを生成するための一連の体系的な評価フレームワークを提供します。

⚠️ 実行原則（遵守必須）

原子性実行

評価タスクは一度開始されたら、中断することなく完全に実行を完了する必要があります。

原則	説明
中断不可	評価開始後、5つのタスクすべてを完了し、レポートを生成する必要があります。
完全なフロー	初期化 → タスク1-5 → スクリーンショット収集 → レポート生成 → クリーンアップ
状態追跡	各タスク完了後にチェックポイントを記録し、回復を容易にします。
ユーザーへの通知	ユーザーが中断しようとした場合、「評価タスクが未完了です。続行しますか？」と通知します。

タスク状態管理

評価開始時に状態ファイル ~/.copaw/tasks/benchmark_YYYYMMDD_HHMMSS/status.json を作成します。

{
  "benchmark_id": "20260317_145034",
  "version": "1.2.0",
  "start_time": "2026-03-17 14:50:00",
  "status": "running",
  "current_task": 1,
  "tasks": [
    {"id": 1, "name": "淘金币签到", "status": "pending", "score": null},
    {"id": 2, "name": "商品搜索+对比+加购", "status": "pending", "score": null},
    {"id": 3, "name": "订单管理", "status": "pending", "score": null},
    {"id": 4, "name": "获取购物车以及降价信息", "status": "pending", "score": null},
    {"id": 5, "name": "客服咨询对话", "status": "pending", "score": null}
  ],
  "screenshots": [],
  "report_generated": false
}

各タスク完了後、直ちに状態を更新します。

# タスク完了後に更新
echo '{"id": 1, "status": "completed", "score": 9, "end_time": "..."}' >> status.json

中断回復メカニズム

セッションが中断された場合、次回ユーザーが評価を尋ねたときに：

status.json が存在するかどうかを確認します。
未完了のタスクが存在する場合：
- ユーザーに「未完了の評価タスク（タスクX/Y）が見つかりました。続行しますか？」と促します。
- ユーザーが確認した後、current_task から実行を続行します。
完了しているがレポートが生成されていない場合：
- 直接レポートを生成します。

実行フローチャート

評価開始
    │
    ▼
タスクディレクトリ + status.json を作成
    │
    ▼
┌─────────────────────────────┐
│  タスク1：淘金币サインイン   │◄─── スクリーンショット、所要時間、結果を記録
│  タスク2：商品検索+比較+カート追加 │◄─── スクリーンショット、所要時間、結果を記録
│  タスク3：注文管理          │◄─── スクリーンショット、所要時間、結果を記録
│  タスク4：カートと値下げ情報を取得 │◄─── スクリーンショット、所要時間、結果を記録
│  タスク5：カスタマーサービスチャット │◄─── スクリーンショット、所要時間、結果を記録
└─────────────────────────────┘
    │
    ▼
すべてのスクリーンショットを収集
    │
    ▼
Wordレポートを生成（スクリーンショットを含む）
    │
    ▼
status.json を更新 → completed
    │
    ▼
評価結果の概要を出力

禁止操作

禁止行為	理由
❌ タスクの途中で停止	評価データが不完全になるため
❌ タスクをスキップ	合計スコアの計算に影響するため
❌ スクリーンショットをスキップ	レポートに重要な証拠が欠落するため
❌ レポートを生成しない	ユーザーが結果を確認できないため

ユーザー中断処理

ユーザーが評価中に「停止」、「やめる」などと言った場合：

AI：⚠️ 評価タスクはまだ完了していません（X/5 個のタスクが完了済み）。
    中断すると評価データが不完全になり、完全なレポートを生成できません。
    評価を続行しますか？（「続行」を選択することをお勧めします）

    - 続行：残りのタスクの実行を続行します。
    - 中断：評価を停止し、不完全なレポートを生成します（非推奨）。

適用シナリオ

MCPツールバージョン更新後の回帰テスト
新機能リリース前の受け入れテスト
定期的な品質チェックと安定性監視
問題の再現とパフォーマンスベンチマークテスト

評価タスクリスト

タスク1：淘金币サインイン（ウェイト 25%）

テスト目標：ナビゲーション、要素認識、クリック操作の安定性を検証します。

テスト手順：

navigate → ホームページ
scan_page_elements → 淘金币エントリを認識
click_element → 淘金币ページに移動
read_page_content → 金貨の数を読み取る
サインインタスクを完了する（商品を閲覧するなど）
金貨の増加を検証する

採点基準： | 指標 | 点数 | |------|------| | ナビゲーション成功 | 2点 | | 要素認識の正確性 | 2点 | | クリック操作成功 | 2点 | | 金貨増加の検証 | 2点 | | フローの円滑さ | 2点 |

タスク2：商品検索+比較+カート追加（ウェイト 30%）

テスト目標：検索、詳細表示、SKU選択、カート追加フローを検証します。

テスト手順：

search_products → キーワード（例：「保温杯」）を検索
read_page_content → 検索結果を読み取る
上位3つの商品をフィルタリングして比較
click_element → 商品詳細ページに移動
read_page_content → 商品情報を読み取る
add_to_cart → カートに追加（SKUパラメータ付き）

採点基準： | 指標 | 点数 | |------|------| | 検索結果の返却 | 2点 | | 商品詳細ページへのナビゲーション | 2点 | | 情報抽出の完全性 | 2点 | | SKU選択の正確性 | 2点 | | カート追加成功 | 2点 |

タスク3：注文管理（ウェイト 20%）

テスト目標：注文ページナビゲーション、ステータスフィルタリング機能を検証します。

テスト手順：

navigate → 注文ページ
scan_page_elements → フィルタリングタグを認識
順にテスト：未払い、未発送、未受領、未評価
read_page_content → 注文リストを読み取る
フィルタリング機能が正常であることを検証する

採点基準： | 指標 | 点数 | |------|------| | 注文ページナビゲーション | 2点 | | フィルタリングタグ認識 | 2点 | | フィルタリング機能の正常性 | 2点 | | 注文情報読み取り | 2点 | | ページ切り替えの円滑さ | 2点 |

タスク4：カートと値下げ情報を取得（ウェイト 20%）

テスト目標：カートナビゲーション、商品リスト読み取り、値下げ情報抽出を検証します。

テスト手順：

navigate → カートページ
read_page_content → 商品リストを読み取る
カート内の商品総数を統計
「値下げ」タグをクリックして値下げ商品をフィルタリング
read_page_content → 値下げ商品の詳細を読み取る
値下げ商品の数と値下げ金額を記録する

採点基準： | 指標 | 点数 | |------|------| | カートナビゲーション成功 | 2点 | | 商品リスト読み取りの完全性 | 2点 | | 値下げタグクリック成功 | 2点 | | 値下げ情報抽出の正確性 | 2点 | | データ記録の完全性 | 2点 |

出力データ：

カート内の商品総数
値下げ商品の数
各値下げ商品の：商品名、元の価格、クーポン適用後の価格、値下げ金額

タスク5：カスタマーサービスチャット（ウェイト 15%）

テスト目標：商品検索、カスタマーサービス相談開始、複数回チャット機能を検証します。

テスト手順：

ランダムに商品テーマを選択（例：マウス、キーボード、デスクライトなど）
search_products → 商品を検索
open_chat_from_search → 業者カスタマーサービスチャットに移動
最初の相談を開始：「こんにちは、この商品を今日注文した場合、3日後に杭州に届きますか？」
カスタマーサービスの返信を待つ（最大60秒）
send_chat_message → 2回目の質問を送信：「わかりました、ではどの宅配便で送りますか？SF Expressで送れますか？」
カスタマーサービスの返信を待つ（最大60秒）
2回のチャット内容を記録する

採点基準： | 指標 | 点数 | |------|------| | 商品検索成功 | 1点 | | カスタマーサービスチャットへの移動 | 1点 | | 最初のチャット送信成功 | 1.5点 | | カスタマーサービスの最初の返信受信 | 1.5点 | | 2回目の質問送信成功 | 2点 | | カスタマーサービスの2回目の返信受信 | 2点 | | チャット記録の完全性 | 1点 |

ツール呼び出し：

# 商品を検索
search_products keyword="マウス"

# 検索からカスタマーサービスチャットに移動
open_chat_from_search query="マウス" message="こんにちは、この商品を今日注文した場合、3日後に杭州に届きますか？"

# 2回目の質問を送信（カスタマーサービスの返信後）
send_chat_message message="わかりました、ではどの宅配便で送りますか？SF Expressで送れますか？"

注意事項：

公式旗艦店または高売上店舗を優先的に選択してください。
カスタマーサービスの返信が遅い場合でも、待機時間は60秒を超えないでください。
2回のチャットを完了して初めてタスク完了とみなされます。
2回のカスタマーサービスの返信内容を検証のために記録してください。
カスタマーサービスが長時間返信しない場合、積極的に質問を送信しても構いません（失敗とはみなされません）。

評価フロー

1. 評価タスクの初期化

# 評価タスクディレクトリを作成
mkdir -p ~/.copaw/tasks/benchmark_$(date +%Y%m%d_%H%M%S)/screenshots

# 評価開始時間を記録
echo "評価開始時間: $(date '+%Y-%m-%d %H:%M:%S')" > ~/.copaw/tasks/benchmark_*/timing.log

2. 評価タスクの実行

以下の規範を厳守する必要があります。

スクリーンショット規範（各タスク必須）

スクリーンショットのタイミング	ファイル名	説明
タスク開始時	`XX_task_start.png`	タスク開始時のページ状態
主要操作前	`XX_step_N_操作名_before.png`	操作前のページ状態
主要操作後	`XX_step_N_操作名_after.png`	操作後のページ状態
タスク完了時	`XX_task_end.png`	タスク完了時のページ状態
異常/問題	`XX_issue_N.png`	問題発見時のスクリーンショット

スクリーンショットコマンド：

screencapture -x ~/.copaw/tasks/benchmark_*/screenshots/01_task_start.png

所要時間統計（各操作必須）

# 操作開始
START_TIME=$(date +%s)

# 操作を実行（例：navigate、click など）

# 操作終了、所要時間を計算
END_TIME=$(date +%s)
echo "navigate_home: $((END_TIME - START_TIME))秒" >> timing.log

ツール呼び出し記録

各ツール呼び出しは以下を記録する必要があります。

ツール名
呼び出しパラメータ
返却結果の概要
成功したかどうか
所要時間

echo "$(date '+%H:%M:%S') | navigate | page=home | success | 2.3s" >> calls.log

3. 評価レポートの生成

レポート命名規範（遵守必須）：

項目	形式	例
レポートタイトル	淘宝デスクトップ版MCP評価レポート {YYYY-MM-DD}	淘宝デスクトップ版MCP評価レポート 2026-03-17
Wordファイル名	淘宝デスクトップ版MCP評価レポート {YYYY-MM-DD}.docx	淘宝デスクトップ版MCP評価レポート 2026-03-17.docx
Markdownファイル名	report_{YYYY-MM-DD}.md	report_2026-03-17.md

Wordレポートには以下の内容を必ず含める必要があります。

パート1：全体要約（必須）

評価概要表（バージョン、時間、環境）
全体スコアとランク
タスク完了度統計表
ツール呼び出し概要表
所要時間分布図/表
発見された問題の要約表
主要な結論

パート2：タスク別詳細（各タスクに必須）

各タスクには以下を含める必要があります。

タスク概要
- タスク名と目標
- 開始/終了時間
- 所要時間統計
- スコアと完了ステータス
実行フロー表
- ステップ番号
- 操作説明
- ツール名
- 呼び出しパラメータ
- 返却結果
- 成功したかどうか
- 所要時間
プロセススクリーンショット
- 各主要ステップのスクリーンショット（ドキュメントに埋め込み）
- スクリーンショットの説明文
データ結果
- 具体的なデータ（例：金貨数、商品数など）
- 比較表
問題分析
- 発見された問題リスト
- 問題のスクリーンショットと注釈

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

淘宝桌面版MCP评测框架

概述

本skill提供一套系统化的评测框架，用于测试淘宝桌面版MCP工具的各项功能，并生成专业的技术评测报告。

⚠️ 执行原则（必须遵守）

原子性执行

评测任务一旦开始，必须完整执行完成，不可中断。

原则	说明
不可中断	开始评测后，必须完成所有5个任务 + 生成报告
完整流程	初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理
状态跟踪	每个任务完成后记录 checkpoint，便于恢复
用户提醒	如用户试图中断，提醒"评测任务未完成，是否继续？"

任务状态管理

评测开始时创建状态文件 ~/.copaw/tasks/benchmark_YYYYMMDD_HHMMSS/status.json：

{
  "benchmark_id": "20260317_145034",
  "version": "1.2.0",
  "start_time": "2026-03-17 14:50:00",
  "status": "running",
  "current_task": 1,
  "tasks": [
    {"id": 1, "name": "淘金币签到", "status": "pending", "score": null},
    {"id": 2, "name": "商品搜索+对比+加购", "status": "pending", "score": null},
    {"id": 3, "name": "订单管理", "status": "pending", "score": null},
    {"id": 4, "name": "获取购物车以及降价信息", "status": "pending", "score": null},
    {"id": 5, "name": "客服咨询对话", "status": "pending", "score": null}
  ],
  "screenshots": [],
  "report_generated": false
}

每个任务完成后立即更新状态：

# 任务完成后更新
echo '{"id": 1, "status": "completed", "score": 9, "end_time": "..."}' >> status.json

中断恢复机制

如果会话中断，下次用户询问评测时：

检查 status.json 是否存在
如果存在未完成任务：
- 提示用户："发现未完成的评测任务（任务X/Y），是否继续？"
- 用户确认后，从 current_task 继续执行
如果已完成但未生成报告：
- 直接生成报告

执行流程图

开始评测
    │
    ▼
创建任务目录 + status.json
    │
    ▼
┌─────────────────────────────┐
│  任务1：淘金币签到           │◄─── 记录截图、耗时、结果
│  任务2：商品搜索+对比+加购   │◄─── 记录截图、耗时、结果
│  任务3：订单管理            │◄─── 记录截图、耗时、结果
│  任务4：获取购物车以及降价信息 │◄─── 记录截图、耗时、结果
│  任务5：客服咨询对话        │◄─── 记录截图、耗时、结果
└─────────────────────────────┘
    │
    ▼
收集所有截图
    │
    ▼
生成 Word 报告（含截图）
    │
    ▼
更新 status.json → completed
    │
    ▼
输出评测结果摘要

禁止操作

禁止行为	原因
❌ 任务中途停止	导致评测数据不完整
❌ 跳过任务	影响总分计算
❌ 跳过截图	报告缺失关键证据
❌ 不生成报告	用户无法查看结果

用户中断处理

如果用户在评测过程中说"停"、"不做了"等：

AI：⚠️ 评测任务尚未完成（已完成 X/5 个任务）。
    中断将导致评测数据不完整，无法生成完整报告。
    是否继续完成评测？（建议选择"继续"）

    - 继续：继续执行剩余任务
    - 中断：停止评测，生成不完整报告（不推荐）

适用场景

MCP工具版本更新后的回归测试
新功能发布前的验收测试
定期质量检查和稳定性监控
问题复现和性能基准测试

评测任务清单

任务1：淘金币签到（权重 25%）

测试目标：验证导航、元素识别、点击操作的稳定性

测试步骤：

navigate → 首页
scan_page_elements → 识别淘金币入口
click_element → 进入淘金币页面
read_page_content → 读取金币数量
完成签到任务（逛商品等）
验证金币增加

评分标准： | 指标 | 分值 | |------|------| | 导航成功 | 2分 | | 元素识别准确 | 2分 | | 点击操作成功 | 2分 | | 金币增加验证 | 2分 | | 流程顺畅度 | 2分 |

任务2：商品搜索+对比+加购（权重 30%）

测试目标：验证搜索、详情查看、SKU选择、加购流程

测试步骤：

search_products → 搜索关键词（如"保温杯"）
read_page_content → 读取搜索结果
筛选前3个商品进行对比
click_element → 进入商品详情页
read_page_content → 读取商品信息
add_to_cart → 加入购物车（带SKU参数）

评分标准： | 指标 | 分值 | |------|------| | 搜索返回结果 | 2分 | | 商品详情页导航 | 2分 | | 信息提取完整 | 2分 | | SKU选择准确 | 2分 | | 加购成功 | 2分 |

任务3：订单管理（权重 20%）

测试目标：验证订单页面导航、状态筛选功能

测试步骤：

navigate → 订单页面
scan_page_elements → 识别筛选标签
依次测试：待付款、待发货、待收货、待评价
read_page_content → 读取订单列表
验证筛选功能正常

评分标准： | 指标 | 分值 | |------|------| | 订单页面导航 | 2分 | | 筛选标签识别 | 2分 | | 筛选功能正常 | 2分 | | 订单信息读取 | 2分 | | 页面切换流畅 | 2分 |

任务4：获取购物车以及降价信息（权重 20%）

测试目标：验证购物车导航、商品列表读取、降价信息提取

测试步骤：

navigate → 购物车页面
read_page_content → 读取商品列表
统计购物车商品总数
点击"降价"标签筛选降价商品
read_page_content → 读取降价商品详情
记录降价商品数量和降价金额

评分标准： | 指标 | 分值 | |------|------| | 购物车导航成功 | 2分 | | 商品列表读取完整 | 2分 | | 降价标签点击成功 | 2分 | | 降价信息提取准确 | 2分 | | 数据记录完整 | 2分 |

输出数据：

购物车商品总数
降价商品数量
每个降价商品的：商品名、原价、券后价、降价金额

任务5：客服咨询对话（权重 15%）

测试目标：验证搜索商品、发起客服咨询、多轮对话功能

测试步骤：

随机选择一个商品主题（如：鼠标、键盘、台灯等）
search_products → 搜索商品
open_chat_from_search → 进入商家客服对话
发起第一轮咨询："你好，请问这个商品今天下单，3天后能到杭州吗？"
等待客服回复（最多60秒）
send_chat_message → 发起第二轮追问："好的，那发什么快递呢？可以发顺丰吗？"
等待客服回复（最多60秒）
记录两轮对话内容

评分标准： | 指标 | 分值 | |------|------| | 商品搜索成功 | 1分 | | 进入客服对话 | 1分 | | 第一轮对话发送成功 | 1.5分 | | 客服第一次回复接收 | 1.5分 | | 第二轮追问发送成功 | 2分 | | 客服第二次回复接收 | 2分 | | 对话记录完整 | 1分 |

工具调用：

# 搜索商品
search_products keyword="鼠标"

# 通过搜索进入客服对话
open_chat_from_search query="鼠标" message="你好，请问这个商品今天下单，3天后能到杭州吗？"

# 发送第二轮追问（等待客服回复后）
send_chat_message message="好的，那发什么快递呢？可以发顺丰吗？"

注意事项：

优先选择官方旗舰店或高销量店铺
如果客服回复较慢，等待时间不超过60秒
必须完成两轮对话才算任务完成
记录两轮客服回复内容用于验证
如果客服长时间未回复，可主动发送追问（不算失败）

评测流程

1. 初始化评测任务

# 创建评测任务目录
mkdir -p ~/.copaw/tasks/benchmark_$(date +%Y%m%d_%H%M%S)/screenshots

# 记录评测开始时间
echo "评测开始时间: $(date '+%Y-%m-%d %H:%M:%S')" > ~/.copaw/tasks/benchmark_*/timing.log

2. 执行评测任务

必须严格遵守以下规范：

截图规范（每个任务必须）

截图时机	文件命名	说明
任务开始	`XX_task_start.png`	任务开始时的页面状态
关键操作前	`XX_step_N_操作名_before.png`	操作前的页面状态
关键操作后	`XX_step_N_操作名_after.png`	操作后的页面状态
任务完成	`XX_task_end.png`	任务完成时的页面状态
异常/问题	`XX_issue_N.png`	发现问题时的截图

截图命令：

screencapture -x ~/.copaw/tasks/benchmark_*/screenshots/01_task_start.png

耗时统计（每个操作必须）

# 操作开始
START_TIME=$(date +%s)

# 执行操作（如 navigate、click 等）

# 操作结束，计算耗时
END_TIME=$(date +%s)
echo "navigate_home: $((END_TIME - START_TIME))秒" >> timing.log

工具调用记录

每次工具调用必须记录：

工具名称
调用参数
返回结果摘要
是否成功
耗时

echo "$(date '+%H:%M:%S') | navigate | page=home | success | 2.3s" >> calls.log

3. 生成评测报告

报告命名规范（必须遵守）：

项目	格式	示例
报告标题	淘宝桌面版MCP评测报告 {YYYY-MM-DD}	淘宝桌面版MCP评测报告 2026-03-17
Word文件名	淘宝桌面版MCP评测报告 {YYYY-MM-DD}.docx	淘宝桌面版MCP评测报告 2026-03-17.docx
Markdown文件名	report_{YYYY-MM-DD}.md	report_2026-03-17.md

Word 报告必须包含以下内容：

第一部分：整体小结（必须）

评测概览表格（版本、时间、环境）
总体评分和等级
任务完成度统计表
工具调用总览表
耗时分布图/表
发现问题汇总表
关键结论

第二部分：分任务详情（每个任务必须包含）

每个任务需包含：

任务概要
- 任务名称和目标
- 开始/结束时间
- 耗时统计
- 评分和完成状态
执行流程表
- 步骤编号
- 操作描述
- 工具名称
- 调用参数
- 返回结果
- 是否成功
- 耗时
过程截图
- 每个关键步骤的截图（嵌入文档）
- 截图说明文字
数据结果
- 具体的数据（如金币数、商品数等）
- 对比表格
问题分析
- 发现的问题列表
- 问题截图和标注
- 影响评估
- 建议解决方案
评价与建议
- 优点总结
- 可优化点

第三部分：技术分析

工具调用统计表（工具名、调用次数、成功率、平均耗时）
性能指标表
问题清单（编号、描述、影响范围、优先级、状态）

第四部分：附录

完整截图清单
工具调用日志
相关文件路径

4. 更新评测记录

将评测结果追加到 benchmark_history.md

工具调用规范

导航操作

# 优先使用专用导航
mcporter call taobao-native.navigate --args '{"target":"home"}' --output json
mcporter call taobao-native.navigate --args '{"target":"cart"}' --output json
mcporter call taobao-native.navigate --args '{"target":"order"}' --output json

元素扫描

# 使用filter参数缩小范围
mcporter call taobao-native.scan_page_elements --args '{"filter":"淘金币"}' --output json
mcporter call taobao-native.scan_page_elements --args '{"filter":"保温杯"}' --output json

内容读取

# 使用scope参数限定范围
mcporter call taobao-native.read_page_content --args '{"maxLength":3000}' --output json

截图保存

# 使用screencapture命令
screencapture -x ~/.copaw/tasks/benchmark_*/screenshots/01_step_name.png

评分计算

总分 = 任务1得分 × 0.20 + 任务2得分 × 0.30 + 任务3得分 × 0.15 + 任务4得分 × 0.20 + 任务5得分 × 0.15

任务权重： | 任务 | 权重 | |------|------| | 1. 淘金币签到 | 20% | | 2. 商品搜索+对比+加购 | 30% | | 3. 订单管理 | 15% | | 4. 获取购物车以及降价信息 | 20% | | 5. 客服咨询对话 | 15% |

评分等级：

9-10分：优秀 ⭐⭐⭐⭐⭐
7-8分：良好 ⭐⭐⭐⭐
5-6分：及格 ⭐⭐⭐
3-4分：需改进 ⭐⭐
0-2分：不合格 ⭐

常见问题与解决方案

问题1：搜索结果页停留在首页

现象：search_products 返回结果，但页面仍在首页

解决方案：

检查当前页面URL
使用 scan_page_elements 确认搜索结果
必要时重新导航

问题2：元素点击失败

现象：click_element 返回失败

解决方案：

检查元素是否可见
尝试滚动页面后再点击
使用text参数模糊匹配

问题3：SKU选择失败

现象：add_to_cart 提示SKU参数错误

解决方案：

先进入商品详情页
使用 scan_page_elements 获取可用SKU选项
按文本匹配选择

评测报告结构

Word 报告采用总分结构，面向技术团队，聚焦评测过程和问题分析。

报告大纲

淘宝桌面版MCP评测报告 {YYYY-MM-DD}
│
├── 一、整体小结 ⭐ 必须首先呈现
│   ├── 1.1 评测概览
│   │   └── 表格：评测日期、版本、环境、总耗时
│   ├── 1.2 总体评分
│   │   └── 大字号评分 + 等级 + 雷达图（可选）
│   ├── 1.3 任务完成度
│   │   └── 表格：任务名、权重、评分、状态、完成率
│   ├── 1.4 工具调用总览
│   │   └── 表格：工具名、调用次数、成功率、平均耗时
│   ├── 1.5 耗时分布
│   │   └── 表格：任务名、耗时、占比
│   ├── 1.6 问题汇总
│   │   └── 表格：问题编号、描述、影响范围、优先级
│   └── 1.7 关键结论
│       └── 3-5条核心结论
│
├── 二、分任务详情
│   ├── 2.1 任务一：淘金币签到
│   │   ├── 2.1.1 任务概要
│   │   │   └── 表格：目标、时间、耗时、评分
│   │   ├── 2.1.2 执行流程
│   │   │   └── 详细表格：每步操作、工具、参数、结果、耗时
│   │   ├── 2.1.3 过程截图 ⭐ 必须嵌入
│   │   │   ├── 图1：首页淘金币入口
│   │   │   ├── 图2：淘金币页面
│   │   │   └── ... 每个关键步骤
│   │   ├── 2.1.4 数据结果
│   │   │   └── 金币数、签到天数等具体数据
│   │   ├── 2.1.5 问题分析
│   │   │   ├── 问题描述 + 截图标注
│   │   │   └── 影响评估 + 建议方案
│   │   └── 2.1.6 评价与建议
│   │
│   ├── 2.2 任务二：商品搜索+对比+加购
│   │   ├── 2.2.1 任务概要
│   │   ├── 2.2.2 执行流程
│   │   ├── 2.2.3 过程截图 ⭐
│   │   │   ├── 搜索结果页
│   │   │   ├── 商品详情页
│   │   │   ├── SKU选择
│   │   │   └── 加购成功
│   │   ├── 2.2.4 数据结果
│   │   ├── 2.2.5 问题分析
│   │   └── 2.2.6 评价与建议
│   │
│   ├── 2.3 任务三：订单管理
│   │   └── （同上结构）
│   │
│   ├── 2.4 任务四：获取购物车以及降价信息
│   │   └── （同上结构）
│   │
│   └── 2.5 任务五：客服咨询对话
│       └── （同上结构）
│
├── 三、技术分析
│   ├── 3.1 工具调用统计
│   │   └── 详细表格：工具、调用次数、成功、失败、成功率、总耗时、平均耗时
│   ├── 3.2 性能指标
│   │   └── 表格：总任务数、成功率、总耗时、平均耗时、截图数、调用总数
│   ├── 3.3 问题清单
│   │   └── 表格：编号、问题描述、复现步骤、影响范围、优先级、建议方案
│   └── 3.4 改进建议
│       ├── 短期（1周内）
│       ├── 中期（1个月内）
│       └── 长期（3个月内）
│
└── 四、附录
    ├── 4.1 完整截图清单
    │   └── 表格：序号、文件名、说明、对应任务
    ├── 4.2 工具调用日志
    │   └── 完整的调用记录
    └── 4.3 相关文件
        └── Markdown报告、Word报告、截图目录路径

报告要点

要点	要求	说明
总分结构	必须	先整体小结，再分任务详情
截图嵌入	必须	每个关键步骤必须有截图，嵌入Word文档
耗时统计	必须	每个操作、每个任务、总体都要有耗时
问题标注	必须	发现问题必须在截图上标注，并说明影响
工具调用日志	必须	完整记录每次工具调用的参数和结果
数据具体化	必须	用具体数字代替模糊描述（如"返回48个商品"而非"返回多个商品"）
面向技术团队	必须	使用专业术语，聚焦技术细节和问题分析

迭代记录

版本	日期	变更内容
v1.4.1	2026-03-17	报告标题和文件名增加日期，便于识别
v1.4.0	2026-03-17	任务4改名"获取购物车以及降价信息"，任务5要求至少两轮对话
v1.3.0	2026-03-17	新增原子性执行原则：任务不可中断、状态管理、中断恢复机制
v1.2.0	2026-03-17	优化报告结构：总分结构、详细截图规范、耗时统计、问题标注
v1.1.0	2026-03-17	新增任务5：客服咨询对话，调整任务权重
v1.0.0	2026-03-17	初始版本，完成首次评测（4个任务）

v1.4.1 更新内容

报告命名优化：

报告标题格式：淘宝桌面版MCP评测报告 {YYYY-MM-DD}
Word文件名格式：淘宝桌面版MCP评测报告 {YYYY-MM-DD}.docx
Markdown文件名格式：report_{YYYY-MM-DD}.md
目的：便于识别和管理多次评测记录

v1.4.0 更新内容

任务4调整：

原名称：购物车比价
新名称：获取购物车以及降价信息
优化评分标准：聚焦购物车商品统计和降价信息提取

任务5调整：

要求：必须完成至少两轮对话
第一轮：发起咨询（如发货时间）
第二轮：追问（如快递方式）
评分标准更新：两轮对话各占2分，回复接收各占2分

v1.3.0 更新内容

原子性执行原则：

评测任务一旦开始，必须完整执行完成，不可中断
完整流程：初始化 → 任务1-5 → 截图收集 → 报告生成 → 清理

状态管理机制：

创建 status.json 跟踪任务进度
每个任务完成后立即更新状态
支持中断恢复：下次询问时检测未完成任务

用户中断处理：

用户尝试中断时提醒"评测任务未完成"
提供"继续"或"中断"选项
中断后生成不完整报告（不推荐）

禁止操作清单：

❌ 任务中途停止
❌ 跳过任务
❌ 跳过截图
❌ 不生成报告

v1.2.0 更新内容

报告结构优化：

采用总分结构：先整体小结，再分任务详情
面向技术团队，聚焦评测过程和问题分析

新增规范：

截图规范：每个关键步骤必须截图并嵌入文档
耗时统计：每个操作、每个任务、总体都要有耗时记录
问题标注：发现问题必须在截图上标注
工具调用日志：完整记录每次调用的参数和结果
数据具体化：用具体数字代替模糊描述

报告内容强化：

整体小结新增：任务完成度表、工具调用总览表、耗时分布表、问题汇总表
分任务详情新增：执行流程详细表、过程截图嵌入、问题分析章节
技术分析强化：工具调用统计表增加成功/失败/平均耗时列

v1.1.0 更新内容

新增任务：客服咨询对话（权重15%）

随机选择商品主题进行搜索
通过搜索进入商家客服对话
发起至少两轮客服咨询
记录客服回复内容

权重调整： | 任务 | v1.0.0 | v1.1.0 | v1.4.0 | |------|--------|--------|--------| | 1. 淘金币签到 | 25% | 20% | 20% | | 2. 商品搜索+对比+加购 | 30% | 30% | 30% | | 3. 订单管理 | 20% | 15% | 15% | | 4. 获取购物车以及降价信息 | 25% | 20% | 20% | | 5. 客服咨询对话 | - | 15% | 15%（新增） |

文件结构

~/.copaw/active_skills/taobao-mcp-benchmark/
├── SKILL.md                    # 本文档
├── templates/
│   ├── task_template.json      # 任务配置模板
│   └── report_template.md      # 报告模板
├── scripts/
│   └── generate_report.js      # Word报告生成脚本
└── history/
    └── benchmark_history.md    # 评测历史记录

快速开始

用户：帮我评测一下淘宝MCP工具
AI：好的，开始执行淘宝桌面版MCP评测...
    [执行4个评测任务]
    [生成评测报告]
    评测完成！总分：8.3/10

最后更新：2026-03-17 v1.4.1

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。

📄 SKILL.md (21,996 bytes)
📎 scripts/generate_report.js (44,579 bytes)
📎 scripts/generate_report.sh (1,548 bytes)
📎 scripts/run_benchmark.sh (1,219 bytes)