jpskill.com
🛠️ 開発・MCP コミュニティ 🔴 エンジニア向け 👤 エンジニア・AI開発者

🛠️ Clawpathy Autoresearch

clawpathy-autoresearch

AIが評価者となり、与えられたタスクと

⏱ 障害ポストモーテム 1日 → 1時間

📺 まず動画で見る(YouTube)

▶ 【衝撃】最強のAIエージェント「Claude Code」の最新機能・使い方・プログラミングをAIで効率化する超実践術を解説! ↗

※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。

📜 元の英語説明(参考)

Eval-driven skill tuning. Given a task and an LLM-judge rubric, iteratively rewrites a SKILL.md until a downstream executor agent performs well against the judge. Low-code: all evaluation is LLM-as-judge, not deterministic Python.

🇯🇵 日本人クリエイター向け解説

一言でいうと

AIが評価者となり、与えられたタスクと

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o clawpathy-autoresearch.zip https://jpskill.com/download/4071.zip && unzip -o clawpathy-autoresearch.zip && rm clawpathy-autoresearch.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/4071.zip -OutFile "$d\clawpathy-autoresearch.zip"; Expand-Archive "$d\clawpathy-autoresearch.zip" -DestinationPath $d -Force; ri "$d\clawpathy-autoresearch.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して clawpathy-autoresearch.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → clawpathy-autoresearch フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-18
同梱ファイル
1

💬 こう話しかけるだけ — サンプルプロンプト

  • Clawpathy Autoresearch を使って、最小構成のサンプルコードを示して
  • Clawpathy Autoresearch の主な使い方と注意点を教えて
  • Clawpathy Autoresearch を既存プロジェクトに組み込む方法を教えて

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

[Skill 名] clawpathy-autoresearch

clawpathy-autoresearch

評価主導のスキル開発。このシステムは、下流のエージェントがタスククラスでより良いパフォーマンスを発揮するように、SKILL.md を繰り返し書き換えます。パフォーマンスは、LLMが論文/タスク固有のルーブリックに基づいて判断します。

核となるアイデア

  propose (sonnet)  →  execute (sonnet, shell)  →  judge (opus, rubric)
       ↑                                                       │
       └──────── feedback: verdict + recommended edits ────────┘
  • Proposer は、前回の Judge の評価に基づいて SKILL.md を書き換えます。
  • Executor は、新しい SKILL.md をワークスペース内でエンドツーエンドで実行します。
  • Judge は、タスクごとのルーブリックに対して、方法論(主要)と出力(副次)を採点します。スコアは低いほど良く、0は完璧です。
  • 新しい SKILL.md は、厳密に最高のスコアを上回った場合にのみ保持します。そうでない場合は元に戻します。target_score に到達するか、early_stop_n 回連続で悪化した場合は停止します。

あなたはオーケストレーターです

あなた(これを読んでいるエージェント)は、ループ自体を実行しません。サブエージェントをディスパッチしてワークスペースを構築し、その後 Python ループに引き渡します。

フェーズ 1 — スカウト

prompts/scout.md を使用してサブエージェントをディスパッチし、論文/タスクを調査させます。主要な調査結果を数行でユーザーに報告します。

フェーズ 2 — スコープ設定(あなた + ユーザー)

会話をします。一度に1つの質問だけをし、役立つ場合は多肢選択式にします。以下の点について合意します。

  • 何を再現するか / 成功とはどのようなものか
  • どのデータソースが範囲内か
  • どのような方法論の期待がルーブリックに含まれるべきか
  • イテレーション予算と target_score(もしあれば)

要約を提示し、承認を得ます。

フェーズ 3 — 構築

prompts/builder.md と合意されたスコープを使用してビルダーサブエージェントをディスパッチします。それは以下を記述します。

  • task.json
  • rubric.mdLLM Judge のための権威ある採点ルーブリック
  • reference/(オプション; Judge のみ)
  • skill/SKILL.md — シード

検証します。

from skills.clawpathy_autoresearch import validate_workspace
print(validate_workspace(Path("WORKSPACE")))  # [] は有効を意味します

フェーズ 4 — ループ

python -m skills.clawpathy_autoresearch WORKSPACE_DIR
# またはカスタムモデルを使用する場合:
python -m skills.clawpathy_autoresearch WORKSPACE_DIR \
  --proposer-model sonnet --executor-model sonnet --judge-model opus

ループは WORKSPACE/history.jsonl に進捗状況をストリーミングし、各イテレーションのスキルを WORKSPACE/snapshots/iter-NNN.md にスナップショットとして保存し、Executor の完全なトランスクリプトを WORKSPACE/executor_runs/iter-NNN.log に書き込みます。

ワークスペースのレイアウト

workspace/
  task.json                  # タスクのメタデータ + ループの調整
  rubric.md                  # LLM-judge のルーブリック(システムの核心)
  reference/                 # オプションの正解データ、judge のみ
  skill/SKILL.md             # ループによって反復される
  output/                    # executor の出力(各イテレーションでクリアされる)
  executor_runs/iter-NNN.log # トランスクリプト(judge がこれを読み取る)
  snapshots/iter-NNN.md      # イテレーションごとの SKILL.md のスナップショット
  history.jsonl              # イテレーションごとの1行: スコア、保持されたか、評価

主要な原則

  • LLM Judge のみ。 決定論的な Python スコアラーはありません。すべての評価は judge.md + opus を通じて行われます。これにより、システムはローコードに保たれ、ルーブリックがコードを追加することなく論文固有のニュアンスを伝えることができます。
  • 方法論が主要。 ルーブリックは、「エージェントは適切な方法を使用したか?」を「数値は一致したか?」よりも重視します。正解との一致はシグナルであり、目的ではありません。目標はより良い SKILL.md ファイルです。
  • 正解データを決して漏洩させない。 reference/ は Judge のみです。Executor のプロンプトはそれを読まないように指示しており、Judge は漏洩を罰します。
  • SKILL.md にハードコードされた回答を含めない。 Proposer のプロンプトと Judge の両方がこれを強制します。Executor はメソッドを実行することで結果を導き出す必要があります。
  • スナップショット + 厳密に改善した場合の復元。 最初のイテレーションのスコアが下限となります。同点または悪化した後のイテレーションは、最良の状態に戻されます。

安全性

  • すべての処理はローカルで行われ、公開リソースのスカウトウェブフェッチを除きます。
  • ClawBio 免責事項: 研究/教育ツールであり、医療機器ではありません。

注意点

  • スコープ設定をスキップしないでください。 ルーブリックは論文固有のものであり、一般的なルーブリックでは何も調整されません。ユーザーと方法論の期待について合意してください。
  • Python スコアラーを作成しないでください。 このプロジェクトの以前のバージョンではそうしていました。それらは方法論ではなく、API フェッチを評価していました。Judge がスコアラーです。
  • 「最良の」スナップショットを自分で選ばないでください。 ループを信頼してください。Judge のキャリブレーションが間違っている場合は、履歴ではなくルーブリックを修正してください。
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

clawpathy-autoresearch

Eval-driven skill development. The system iteratively rewrites a SKILL.md so a downstream executor agent performs better at a task class, as judged by an LLM against a paper/task-specific rubric.

Core idea

  propose (sonnet)  →  execute (sonnet, shell)  →  judge (opus, rubric)
       ↑                                                       │
       └──────── feedback: verdict + recommended edits ────────┘
  • Proposer rewrites SKILL.md based on the last judge verdict.
  • Executor runs the new SKILL.md end-to-end inside a workspace.
  • Judge scores methodology (primary) and outputs (secondary) against a per-task rubric. Lower is better; 0 = perfect.
  • Keep the new SKILL.md only if it strictly beats the best score; else revert. Stop on target_score or on early_stop_n consecutive regressions.

You are the orchestrator

You (the agent reading this) don't run the loop yourself. You dispatch subagents to build the workspace, then hand off to the Python loop.

Phase 1 — Scout

Dispatch a subagent with prompts/scout.md to research the paper/task. Report key findings to the user in a few lines.

Phase 2 — Scope (you + user)

Have a conversation. Ask ONE question at a time, multiple-choice where helpful. Agree on:

  • what to reproduce / what success looks like
  • which data sources are in-bounds
  • what methodology expectations belong in the rubric
  • iteration budget and target_score (if any)

Present a summary and get approval.

Phase 3 — Build

Dispatch a builder subagent with prompts/builder.md and the agreed scope. It writes:

  • task.json
  • rubric.mdthe authoritative scoring rubric for the LLM judge
  • reference/ (optional; judge-only)
  • skill/SKILL.md — seed

Validate:

from skills.clawpathy_autoresearch import validate_workspace
print(validate_workspace(Path("WORKSPACE")))  # [] means valid

Phase 4 — Loop

python -m skills.clawpathy_autoresearch WORKSPACE_DIR
# or with custom models:
python -m skills.clawpathy_autoresearch WORKSPACE_DIR \
  --proposer-model sonnet --executor-model sonnet --judge-model opus

The loop streams progress to WORKSPACE/history.jsonl, snapshots every iteration's skill to WORKSPACE/snapshots/iter-NNN.md, and writes the executor's full transcript to WORKSPACE/executor_runs/iter-NNN.log.

Workspace layout

workspace/
  task.json                  # task metadata + loop knobs
  rubric.md                  # LLM-judge rubric (the heart of the system)
  reference/                 # optional ground truth, judge-only
  skill/SKILL.md             # iterated by the loop
  output/                    # executor outputs (cleared each iter)
  executor_runs/iter-NNN.log # transcripts (judge reads these)
  snapshots/iter-NNN.md      # per-iter SKILL.md snapshots
  history.jsonl              # one row per iter: score, kept, verdict

Key principles

  • LLM judge only. No deterministic Python scorers. All evaluation goes through judge.md + opus. This keeps the system low-code and lets the rubric carry paper-specific nuance without adding code.
  • Methodology is primary. The rubric weights "did the agent use sound methods?" above "did the numbers match?". Ground-truth match is a signal, not the objective — the goal is better SKILL.md files.
  • Never leak ground truth. reference/ is judge-only. The executor prompt says not to read it, and the judge penalises leakage.
  • No hardcoded answers in SKILL.md. The proposer prompt and the judge both enforce this. The executor must derive results by running methods.
  • Snapshots + strict-better revert. Score on the first iter becomes the floor. Later iters that tie or regress revert to the best.

Safety

  • All processing is local except scout web fetches for public resources.
  • ClawBio disclaimer: research/education tool, not a medical device.

Gotchas

  • Do not skip scoping. The rubric is paper-specific; a generic rubric tunes nothing. Get the user to agree on methodology expectations.
  • Do not write a Python scorer. Earlier versions of this project did. They rewarded API-fetching, not methodology. The judge is the scorer.
  • Do not hand-pick the "best" snapshot yourself. Trust the loop. If the judge is calibrated wrong, fix the rubric, not the history.