💬 コミュニケーションコミュニティ

pinchbench

OpenClawエージェントが、カレンダー、メール、調査、コーディングなどの実務的なタスクをどれだけこなせるかを、ベンチマークで評価し、モデルの性能比較や結果の提出、環境設定の確認などに役立てるSkill。

📜 元の英語説明(参考)

Run PinchBench benchmarks to evaluate OpenClaw agent performance across real-world tasks. Use when testing model capabilities, comparing models, submitting benchmark results to the leaderboard, or checking how well your OpenClaw setup handles calendar, email, research, coding, and multi-step workflows.

🇯🇵 日本人クリエイター向け解説

一言でいうと

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o pinchbench.zip https://jpskill.com/download/19799.zip && unzip -o pinchbench.zip && rm pinchbench.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/19799.zip -OutFile "$d\pinchbench.zip"; Expand-Archive "$d\pinchbench.zip" -DestinationPath $d -Force; ri "$d\pinchbench.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して pinchbench.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → pinchbench フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-18
取得日時: 2026-05-18
同梱ファイル: 13

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

PinchBench ベンチマークスキル

PinchBench は、LLM モデルが OpenClaw エージェントの頭脳としてどの程度機能するかを測定します。結果は pinchbench.com の公開リーダーボードで収集されます。

前提条件

Python 3.10+
uv パッケージマネージャー
OpenClaw インスタンス (このエージェント)

クイックスタート

cd <skill_directory>

# 特定のモデルでベンチマークを実行
uv run benchmark.py --model anthropic/claude-sonnet-4

# 自動化されたタスクのみを実行 (高速)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only

# 特定のタスクを実行
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_01_calendar,task_02_stock

# 結果のアップロードをスキップ
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload

利用可能なタスク (23)

タスク	カテゴリ	説明
`task_00_sanity`	基本	エージェントが機能することを確認
`task_01_calendar`	生産性	カレンダーイベントの作成
`task_02_stock`	調査	株価の検索
`task_03_blog`	ライティング	ブログ記事の作成
`task_04_weather`	コーディング	天気スクリプト
`task_05_summary`	分析	ドキュメントの要約
`task_06_events`	調査	会議の調査
`task_07_email`	ライティング	メール作成
`task_08_memory`	メモリ	コンテキストの取得
`task_09_files`	ファイル	ファイル構造の作成
`task_10_workflow`	統合	マルチステップ API ワークフロー
`task_11_clawdhub`	スキル	ClawHub との対話
`task_12_skill_search`	スキル	スキルの発見
`task_13_image_gen`	クリエイティブ	画像生成
`task_14_humanizer`	ライティング	テキストの人間化
`task_15_daily_summary`	生産性	日次ダイジェスト
`task_16_email_triage`	メール	受信トレイのトリアージ
`task_17_email_search`	メール	メール検索
`task_18_market_research`	調査	市場分析
`task_19_spreadsheet_summary`	分析	スプレッドシート分析
`task_20_eli5_pdf_summary`	分析	PDF の簡素化
`task_21_openclaw_comprehension`	知識	OpenClaw ドキュメントの理解
`task_22_second_brain`	メモリ	知識管理

コマンドラインオプション

オプション	説明
`--model`	モデル識別子 (例: `anthropic/claude-sonnet-4`)
`--suite`	`all`、`automated-only`、またはカンマ区切りのタスク ID
`--output-dir`	結果ディレクトリ (デフォルト: `results/`)
`--timeout-multiplier`	低速モデル向けにタスクのタイムアウトを調整
`--runs`	平均化のためのタスクごとの実行回数
`--no-upload`	リーダーボードへのアップロードをスキップ
`--register`	提出用の新しい API トークンを要求
`--upload FILE`	以前の結果 JSON をアップロード

トークン登録

結果をリーダーボードに提出するには:

# API トークンを登録 (1回のみ)
uv run benchmark.py --register

# ベンチマークを実行 (トークンで自動アップロード)
uv run benchmark.py --model anthropic/claude-sonnet-4

結果

結果は出力ディレクトリに JSON 形式で保存されます。

# タスクスコアを表示
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json

# 失敗したタスクを表示
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json

# 全体スコアを計算
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json

カスタムタスクの追加

tasks/ ディレクトリに TASK_TEMPLATE.md に従って Markdown ファイルを作成します。各タスクには以下が必要です。

YAML フロントマター (id、name、category、grading_type、timeout)
プロンプトセクション
期待される動作
採点基準
自動チェック (Python 採点関数)

リーダーボード

結果は pinchbench.com で確認できます。リーダーボードには以下が表示されます。

全体スコアによるモデルランキング
タスクごとの内訳
過去のパフォーマンス傾向

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

PinchBench Benchmark Skill

PinchBench measures how well LLM models perform as the brain of an OpenClaw agent. Results are collected on a public leaderboard at pinchbench.com.

Prerequisites

Python 3.10+
uv package manager
OpenClaw instance (this agent)

Quick Start

cd <skill_directory>

# Run benchmark with a specific model
uv run benchmark.py --model anthropic/claude-sonnet-4

# Run only automated tasks (faster)
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite automated-only

# Run specific tasks
uv run benchmark.py --model anthropic/claude-sonnet-4 --suite task_01_calendar,task_02_stock

# Skip uploading results
uv run benchmark.py --model anthropic/claude-sonnet-4 --no-upload

Available Tasks (23)

Task	Category	Description
`task_00_sanity`	Basic	Verify agent works
`task_01_calendar`	Productivity	Calendar event creation
`task_02_stock`	Research	Stock price lookup
`task_03_blog`	Writing	Blog post creation
`task_04_weather`	Coding	Weather script
`task_05_summary`	Analysis	Document summarization
`task_06_events`	Research	Conference research
`task_07_email`	Writing	Email drafting
`task_08_memory`	Memory	Context retrieval
`task_09_files`	Files	File structure creation
`task_10_workflow`	Integration	Multi-step API workflow
`task_11_clawdhub`	Skills	ClawHub interaction
`task_12_skill_search`	Skills	Skill discovery
`task_13_image_gen`	Creative	Image generation
`task_14_humanizer`	Writing	Text humanization
`task_15_daily_summary`	Productivity	Daily digest
`task_16_email_triage`	Email	Inbox triage
`task_17_email_search`	Email	Email search
`task_18_market_research`	Research	Market analysis
`task_19_spreadsheet_summary`	Analysis	Spreadsheet analysis
`task_20_eli5_pdf_summary`	Analysis	PDF simplification
`task_21_openclaw_comprehension`	Knowledge	OpenClaw docs comprehension
`task_22_second_brain`	Memory	Knowledge management

Command Line Options

Option	Description
`--model`	Model identifier (e.g., `anthropic/claude-sonnet-4`)
`--suite`	`all`, `automated-only`, or comma-separated task IDs
`--output-dir`	Results directory (default: `results/`)
`--timeout-multiplier`	Scale task timeouts for slower models
`--runs`	Number of runs per task for averaging
`--no-upload`	Skip uploading to leaderboard
`--register`	Request new API token for submissions
`--upload FILE`	Upload previous results JSON

Token Registration

To submit results to the leaderboard:

# Register for an API token (one-time)
uv run benchmark.py --register

# Run benchmark (auto-uploads with token)
uv run benchmark.py --model anthropic/claude-sonnet-4

Results

Results are saved as JSON in the output directory:

# View task scores
jq '.tasks[] | {task_id, score: .grading.mean}' results/0001_anthropic-claude-sonnet-4.json

# Show failed tasks
jq '.tasks[] | select(.grading.mean < 0.5)' results/*.json

# Calculate overall score
jq '{average: ([.tasks[].grading.mean] | add / length)}' results/*.json

Adding Custom Tasks

Create a markdown file in tasks/ following TASK_TEMPLATE.md. Each task needs:

YAML frontmatter (id, name, category, grading_type, timeout)
Prompt section
Expected behavior
Grading criteria
Automated checks (Python grading function)

Leaderboard

View results at pinchbench.com. The leaderboard shows:

Model rankings by overall score
Per-task breakdowns
Historical performance trends

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。

📄 SKILL.md (4,271 bytes)
📎 assets/ai_blog.txt (4,559 bytes)
📎 assets/company_expenses.xlsx (5,996 bytes)
📎 assets/OpenClaw Agent Use Cases and Gap Analysis for PinchBench.pdf (75,902 bytes)
📎 assets/quarterly_sales.csv (1,288 bytes)
📎 LICENSE (1,067 bytes)
📎 README.md (6,035 bytes)
📎 scripts/benchmark.py (25,839 bytes)
📎 scripts/lib_agent.py (29,810 bytes)
📎 scripts/lib_grading.py (15,839 bytes)
📎 scripts/lib_tasks.py (6,649 bytes)
📎 scripts/lib_upload.py (14,336 bytes)
📎 scripts/run.sh (250 bytes)