pinchbench
OpenClawエージェントが、カレンダー、メール、調査、コーディングなどの実務的なタスクをどれだけこなせるかを、ベンチマークで評価し、モデルの性能比較や結果の提出、環境設定の確認などに役立てるSkill。
📜 元の英語説明(参考)
Run PinchBench benchmarks to evaluate OpenClaw agent performance across real-world tasks. Use when testing model capabilities, comparing models, submitting benchmark results to the leaderboard, or checking how well your OpenClaw setup handles calendar, email, research, coding, and multi-step workflows.
🇯🇵 日本人クリエイター向け解説
OpenClawエージェントが、カレンダー、メール、調査、コーディングなどの実務的なタスクをどれだけこなせるかを、ベンチマークで評価し、モデルの性能比較や結果の提出、環境設定の確認などに役立てるSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o pinchbench.zip https://jpskill.com/download/19799.zip && unzip -o pinchbench.zip && rm pinchbench.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/19799.zip -OutFile "$d\pinchbench.zip"; Expand-Archive "$d\pinchbench.zip" -DestinationPath $d -Force; ri "$d\pinchbench.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
pinchbench.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
pinchbenchフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 13
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
PinchBench ベンチマークスキル
PinchBench は、LLM モデルが OpenClaw エージェントの頭脳としてどの程度機能するかを測定します。結果は pinchbench.com の公開リーダーボードで収集されます。
前提条件
- Python 3.10+
- uv パッケージマネージャー
- OpenClaw インスタンス (このエージェント)
クイックスタート
cd <skill_directory>
# 特定のモデルでベンチマークを実行
uv run benchmark.py --model anthropic/claude-sonnet-4
# 自動化されたタスクのみを実行 (高速)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only
# 特定のタスクを実行
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_01_calendar,task_02_stock
# 結果のアップロードをスキップ
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload
利用可能なタスク (23)
| タスク | カテゴリ | 説明 |
|---|---|---|
task_00_sanity |
基本 | エージェントが機能することを確認 |
task_01_calendar |
生産性 | カレンダーイベントの作成 |
task_02_stock |
調査 | 株価の検索 |
task_03_blog |
ライティング | ブログ記事の作成 |
task_04_weather |
コーディング | 天気スクリプト |
task_05_summary |
分析 | ドキュメントの要約 |
task_06_events |
調査 | 会議の調査 |
task_07_email |
ライティング | メール作成 |
task_08_memory |
メモリ | コンテキストの取得 |
task_09_files |
ファイル | ファイル構造の作成 |
task_10_workflow |
統合 | マルチステップ API ワークフロー |
task_11_clawdhub |
スキル | ClawHub との対話 |
task_12_skill_search |
スキル | スキルの発見 |
task_13_image_gen |
クリエイティブ | 画像生成 |
task_14_humanizer |
ライティング | テキストの人間化 |
task_15_daily_summary |
生産性 | 日次ダイジェスト |
task_16_email_triage |
メール | 受信トレイのトリアージ |
task_17_email_search |
メール | メール検索 |
task_18_market_research |
調査 | 市場分析 |
task_19_spreadsheet_summary |
分析 | スプレッドシート分析 |
task_20_eli5_pdf_summary |
分析 | PDF の簡素化 |
task_21_openclaw_comprehension |
知識 | OpenClaw ドキュメントの理解 |
task_22_second_brain |
メモリ | 知識管理 |
コマンドラインオプション
| オプション | 説明 |
|---|---|
--model |
モデル識別子 (例: anthropic/claude-sonnet-4) |
--suite |
all、automated-only、またはカンマ区切りのタスク ID |
--output-dir |
結果ディレクトリ (デフォルト: results/) |
--timeout-multiplier |
低速モデル向けにタスクのタイムアウトを調整 |
--runs |
平均化のためのタスクごとの実行回数 |
--no-upload |
リーダーボードへのアップロードをスキップ |
--register |
提出用の新しい API トークンを要求 |
--upload FILE |
以前の結果 JSON をアップロード |
トークン登録
結果をリーダーボードに提出するには:
# API トークンを登録 (1回のみ)
uv run benchmark.py --register
# ベンチマークを実行 (トークンで自動アップロード)
uv run benchmark.py --model anthropic/claude-sonnet-4
結果
結果は出力ディレクトリに JSON 形式で保存されます。
# タスクスコアを表示
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json
# 失敗したタスクを表示
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json
# 全体スコアを計算
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json
カスタムタスクの追加
tasks/ ディレクトリに TASK_TEMPLATE.md に従って Markdown ファイルを作成します。各タスクには以下が必要です。
- YAML フロントマター (id、name、category、grading_type、timeout)
- プロンプトセクション
- 期待される動作
- 採点基準
- 自動チェック (Python 採点関数)
リーダーボード
結果は pinchbench.com で確認できます。リーダーボードには以下が表示されます。
- 全体スコアによるモデルランキング
- タスクごとの内訳
- 過去のパフォーマンス傾向
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
PinchBench Benchmark Skill
PinchBench measures how well LLM models perform as the brain of an OpenClaw agent. Results are collected on a public leaderboard at pinchbench.com.
Prerequisites
- Python 3.10+
- uv package manager
- OpenClaw instance (this agent)
Quick Start
cd <skill_directory>
# Run benchmark with a specific model
uv run benchmark.py --model anthropic/claude-sonnet-4
# Run only automated tasks (faster)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only
# Run specific tasks
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_01_calendar,task_02_stock
# Skip uploading results
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload
Available Tasks (23)
| Task | Category | Description |
|---|---|---|
task_00_sanity |
Basic | Verify agent works |
task_01_calendar |
Productivity | Calendar event creation |
task_02_stock |
Research | Stock price lookup |
task_03_blog |
Writing | Blog post creation |
task_04_weather |
Coding | Weather script |
task_05_summary |
Analysis | Document summarization |
task_06_events |
Research | Conference research |
task_07_email |
Writing | Email drafting |
task_08_memory |
Memory | Context retrieval |
task_09_files |
Files | File structure creation |
task_10_workflow |
Integration | Multi-step API workflow |
task_11_clawdhub |
Skills | ClawHub interaction |
task_12_skill_search |
Skills | Skill discovery |
task_13_image_gen |
Creative | Image generation |
task_14_humanizer |
Writing | Text humanization |
task_15_daily_summary |
Productivity | Daily digest |
task_16_email_triage |
Inbox triage | |
task_17_email_search |
Email search | |
task_18_market_research |
Research | Market analysis |
task_19_spreadsheet_summary |
Analysis | Spreadsheet analysis |
task_20_eli5_pdf_summary |
Analysis | PDF simplification |
task_21_openclaw_comprehension |
Knowledge | OpenClaw docs comprehension |
task_22_second_brain |
Memory | Knowledge management |
Command Line Options
| Option | Description |
|---|---|
--model |
Model identifier (e.g., anthropic/claude-sonnet-4) |
--suite |
all, automated-only, or comma-separated task IDs |
--output-dir |
Results directory (default: results/) |
--timeout-multiplier |
Scale task timeouts for slower models |
--runs |
Number of runs per task for averaging |
--no-upload |
Skip uploading to leaderboard |
--register |
Request new API token for submissions |
--upload FILE |
Upload previous results JSON |
Token Registration
To submit results to the leaderboard:
# Register for an API token (one-time)
uv run benchmark.py --register
# Run benchmark (auto-uploads with token)
uv run benchmark.py --model anthropic/claude-sonnet-4
Results
Results are saved as JSON in the output directory:
# View task scores
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json
# Show failed tasks
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json
# Calculate overall score
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json
Adding Custom Tasks
Create a markdown file in tasks/ following TASK_TEMPLATE.md. Each task needs:
- YAML frontmatter (id, name, category, grading_type, timeout)
- Prompt section
- Expected behavior
- Grading criteria
- Automated checks (Python grading function)
Leaderboard
View results at pinchbench.com. The leaderboard shows:
- Model rankings by overall score
- Per-task breakdowns
- Historical performance trends
同梱ファイル
※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。
- 📄 SKILL.md (4,271 bytes)
- 📎 assets/ai_blog.txt (4,559 bytes)
- 📎 assets/company_expenses.xlsx (5,996 bytes)
- 📎 assets/OpenClaw Agent Use Cases and Gap Analysis for PinchBench.pdf (75,902 bytes)
- 📎 assets/quarterly_sales.csv (1,288 bytes)
- 📎 LICENSE (1,067 bytes)
- 📎 README.md (6,035 bytes)
- 📎 scripts/benchmark.py (25,839 bytes)
- 📎 scripts/lib_agent.py (29,810 bytes)
- 📎 scripts/lib_grading.py (15,839 bytes)
- 📎 scripts/lib_tasks.py (6,649 bytes)
- 📎 scripts/lib_upload.py (14,336 bytes)
- 📎 scripts/run.sh (250 bytes)