artifact-evaluation-prep
会議の成果物評価や再現性レビューに向け、インストール手順、再現コマンド、データ、環境設定など、研究成果物パッケージを準備するSkill。
📜 元の英語説明(参考)
Prepare a research artifact package for conference artifact evaluation, reproducibility review, badges, supplementary material, or post-acceptance artifact release. Use this skill whenever the user needs install instructions, reviewer-facing reproduction commands, Docker or environment checks, data/checkpoint packaging, hardware/runtime estimates, anonymized or public artifact metadata, artifact evaluation forms, or a claim-to-artifact reproducibility audit for ML/AI venues.
🇯🇵 日本人クリエイター向け解説
会議の成果物評価や再現性レビューに向け、インストール手順、再現コマンド、データ、環境設定など、研究成果物パッケージを準備するSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-17
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
[スキル名] artifact-evaluation-prep
アーティファクト評価の準備
論文のコード、データ、チェックポイント、スクリプト、および指示を準備し、外部のアーティファクトレビュー担当者が最小限の曖昧さで論文の主張を再現できるようにします。
このスキルを使用する状況:
- 会議がアーティファクト評価、再現性バッジ、またはアーティファクト付録を要求または提供している場合
- ユーザーがレビュー担当者向けのインストール、クイックスタート、デモ、または再現手順を必要としている場合
- カメラレディまたは採択された論文がアーティファクトパッケージの引き渡しを必要としている場合
- コード、データ、チェックポイント、モデル、Dockerイメージ、または外部サービスをパッケージ化する必要がある場合
- ランタイム、ハードウェア、乱数シード、期待される出力、またはトラブルシューティングのメモを明示する必要がある場合
- 論文の主張を実行可能なスクリプトまたはリリースされたアーティファクトにマッピングする必要がある場合
このスキルを一般的なコードリリーススキルとして使用しないでください。公開リポジトリの衛生管理、ライセンス、CITATIONファイル、タグ、およびGitHubリリースには release-code を使用してください。このスキルは、レビュー担当者向けのアーティファクト実行と主張の再現のために使用してください。
このスキルと組み合わせて使用するスキル:
camera-ready-finalizer:採択された論文の義務と最終的な主張/証拠の状態を回復するためrelease-code:アーティファクトの義務が明確になった後、公開リポジトリの衛生管理を準備するためreproducibility-audit:環境、データ、または実行のずれについてより広範な監査が必要な場合run-experiment:再現コマンドを生成またはテストするためfigure-results-review:アーティファクトの出力が論文の図や表と一致する必要がある場合citation-audit:アーティファクトのメタデータがデータセット、コード、または以前のアーティファクトを引用している場合research-project-memory:アーティファクトのステータス、ブロッカー、およびレビュー担当者向けの指示を永続化する必要がある場合
スキルディレクトリのレイアウト
<installed-skill-dir>/
├── SKILL.md
└── references/
├── artifact-audit.md
├── memory-writeback.md
├── package-manifest.md
├── report-template.md
└── reviewer-instructions.md
段階的な読み込み
- 常に
references/artifact-audit.md、references/package-manifest.md、およびreferences/reviewer-instructions.mdを読んでください。 - 保存されたアーティファクト評価レポートを作成する前に
references/report-template.mdを読んでください。 - プロジェクトに
memory/、コンポーネント.agent/フォルダーがある場合、またはユーザーが永続的な状態を要求する場合はreferences/memory-writeback.mdを読んでください。 - 会議の規則が重要である場合は、締め切り、バッジ名、匿名性規則、アップロードフィールド、ページ制限、または必須形式を主張する前に、現在の公式アーティファクト評価指示を確認してください。
核となる原則
- アーティファクト評価はレビュー担当者のワークフローであり、単なるコードのダンプではありません。
- アーティファクトは、論文の重要な主張を許容可能なコストで再現できるか、再現できないものを明確に文書化する必要があります。
- 多くの脆弱なコマンドよりも、信頼性の高いクイックスタートと完全な再現パスを1つずつ優先してください。
- すべてのコマンドは、予想されるランタイム、ハードウェア、入力、出力、および成功基準を明記する必要があります。
- 再配布可能なデータ、チェックポイント、および依存関係のみをパッケージ化し、制限されたアセットを正確に文書化してください。
- 匿名性、ライセンス、および外部サービスに関する仮定を明示的に保ってください。
- スモークテストを必須として扱ってください。テストされていない指示ファイルはアーティファクトパッケージではありません。
ステップ1 - 評価コンテキストの回復
収集するもの:
- 会議とアーティファクト評価トラック(既知の場合)
- 公式のアーティファクト指示、バッジ基準、匿名性ポリシー、およびアップロードメカニズム
- 採択または提出された論文、付録、補足資料、およびチェックリスト
- コードリポジトリ、コミットハッシュ、ブランチ、およびワークツリー
- データセット、チェックポイント、事前学習済みモデル、生成された出力、および外部依存関係
- ハードウェアの期待値:CPU/GPUタイプ、メモリ、ディスク、ランタイム、ネットワークアクセス
- アーティファクトがサポートすべき論文の主張、図、表、および実験
- 制約:プライベートデータ、ライセンス制限、大きなファイル、クラウド依存関係、非決定性、またはレビュー担当者の時間予算
会議が指定されていない場合は、会議に依存しないアーティファクトパッケージを作成しますが、会議固有のフィールドは未解決としてマークしてください。
ステップ2 - 主張をアーティファクトパスにマッピングする
論文の各主張または結果について、以下を記録します。
- 主張または結果のID
- 論文内の場所
- それをサポートするスクリプト、ノートブック、設定、またはコマンド
- 入力データまたはチェックポイント
- 予想される出力ファイル、メトリック、表、または図
- おおよそのランタイムとハードウェア
- 決定論的許容範囲または予想される分散
- レビュー担当者の優先度:クイックスタート、コア、オプション、またはパッケージ内で再現不可
スモークテストまたはキャッシュされた出力のみが提供されている場合、完全な再現性を暗示しないでください。
ステップ3 - アーティファクトマニフェストの作成
references/package-manifest.md を読んでください。
以下をリストするマニフェストを作成または更新します。
- リポジトリURLまたはアーカイブパス
- 正確なコミット、タグ、またはチェックサム
- ディレクトリレイアウト
- 環境ファイルとDockerイメージ
- データとチェックポイントの場所
- 再現スクリプトと設定
- 予想される生成出力
- ライセンスと引用メタデータ
- 既知の制限とサポートされていない主張
会議が特定のファイル名を要求しない限り、ARTIFACT.md、REPRODUCE.md、または docs/artifact_evaluation.md のような小さく安定した名前を推奨します。
ステップ4 - レビュー担当者向け指示の作成
references/reviewer-instructions.md を読んでください。
以下を提供します。
- セットアップコマンド
- 短いランタイム予算でのクイックスモークテスト
- 論文の主要な主張のためのコア再現コマンド
- 予想される出力と、それらを論文と比較する方法
- 一般的な失敗のトラブルシューティング
- ハードウェア、ストレージ、ネットワーク、および時間要件
- 許可されている場合の連絡ポリシーまたは匿名サポートチャネル
- 制限事項とオプションの拡張実行
指示はコピー&ペースト可能であるべきで、レビュー担当者が隠されたパスや環境変数を推測する必要があってはなりません。
ステップ5 - アーティファクトのスモークテスト
ユーザーと環境が許可する場合、少なくとも以下を実行します。
- 環境作成または依存関係解決
- インポートまたはCLIの健全性チェック
- クイックスタートコマンド
- 代表的なデータ/チェックポイントのロード
- 予想される出力の比較
コマンドが高価すぎる場合は、正確な理由を記録し、最小限の代替テストを作成してください。
ステップ6 - パッケージングリスクの処理
監査:
- 匿名化 vs 公開リリース
(原文がここで切り詰められています)
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
Artifact Evaluation Prep
Prepare a paper's code, data, checkpoints, scripts, and instructions so an external artifact reviewer can reproduce the paper-facing claims with minimal ambiguity.
Use this skill when:
- a venue requires or offers artifact evaluation, reproducibility badges, or artifact appendices
- the user needs reviewer-facing install, quickstart, demo, or reproduction instructions
- a camera-ready or accepted paper needs an artifact package handoff
- code, data, checkpoints, models, Docker images, or external services must be packaged
- runtime, hardware, random seeds, expected outputs, or troubleshooting notes need to be made explicit
- claims in the paper need to be mapped to runnable scripts or released artifacts
Do not use this skill as a general code-release skill. Use release-code for public repository hygiene, licensing, CITATION files, tags, and GitHub releases. Use this skill for reviewer-facing artifact execution and claim reproduction.
Pair this skill with:
camera-ready-finalizerto recover accepted-paper obligations and final claim/evidence staterelease-codeto prepare public repository hygiene after artifact obligations are clearreproducibility-auditwhen environment, data, or execution drift needs a broader auditrun-experimentfor generating or testing reproduction commandsfigure-results-reviewwhen artifact outputs must match paper figures or tablescitation-auditwhen artifact metadata cites datasets, code, or prior artifactsresearch-project-memorywhen artifact status, blockers, and reviewer-facing instructions should persist
Skill Directory Layout
<installed-skill-dir>/
├── SKILL.md
└── references/
├── artifact-audit.md
├── memory-writeback.md
├── package-manifest.md
├── report-template.md
└── reviewer-instructions.md
Progressive Loading
- Always read
references/artifact-audit.md,references/package-manifest.md, andreferences/reviewer-instructions.md. - Read
references/report-template.mdbefore writing a saved artifact evaluation report. - Read
references/memory-writeback.mdwhen the project hasmemory/, component.agent/folders, or the user asks for persistent state. - If venue rules matter, verify current official artifact evaluation instructions before asserting deadlines, badge names, anonymity rules, upload fields, page limits, or required formats.
Core Principles
- Artifact evaluation is a reviewer workflow, not just a code dump.
- The artifact must reproduce the paper's important claims at an acceptable cost, or clearly document what it cannot reproduce.
- Prefer one reliable quickstart and one complete reproduction path over many fragile commands.
- Every command should state expected runtime, hardware, input, output, and success criteria.
- Package only redistributable data, checkpoints, and dependencies; document restricted assets precisely.
- Keep anonymity, licensing, and external-service assumptions explicit.
- Treat smoke tests as required. An untested instruction file is not an artifact package.
Step 1 - Recover Evaluation Context
Collect:
- venue and artifact evaluation track, if known
- official artifact instructions, badge criteria, anonymity policy, and upload mechanism
- accepted or submitted paper, appendix, supplementary material, and checklist
- code repository, commit hash, branches, and worktrees
- datasets, checkpoints, pretrained models, generated outputs, and external dependencies
- hardware expectations: CPU/GPU type, memory, disk, runtime, network access
- paper claims, figures, tables, and experiments that the artifact should support
- constraints: private data, license limits, large files, cloud dependencies, nondeterminism, or reviewer time budget
If no venue is specified, produce a venue-agnostic artifact package but mark venue-specific fields as unresolved.
Step 2 - Map Claims to Artifact Paths
For each paper-facing claim or result, record:
- claim or result ID
- paper location
- script, notebook, config, or command that supports it
- input data or checkpoint
- expected output file, metric, table, or figure
- approximate runtime and hardware
- deterministic tolerance or expected variance
- reviewer priority: quickstart, core, optional, or not reproducible in package
Do not imply full reproducibility if only a smoke test or cached output is provided.
Step 3 - Build the Artifact Manifest
Read references/package-manifest.md.
Create or update a manifest that lists:
- repository URL or archive path
- exact commit, tag, or checksum
- directory layout
- environment files and Docker images
- data and checkpoint locations
- reproduction scripts and configs
- expected generated outputs
- license and citation metadata
- known limitations and unsupported claims
Prefer small, stable names such as ARTIFACT.md, REPRODUCE.md, or docs/artifact_evaluation.md unless the venue requires a specific filename.
Step 4 - Write Reviewer Instructions
Read references/reviewer-instructions.md.
Provide:
- setup commands
- quick smoke test under a short runtime budget
- core reproduction commands for main paper claims
- expected outputs and how to compare them with the paper
- troubleshooting for common failures
- hardware, storage, network, and time requirements
- contact policy or anonymous support channel if allowed
- limitations and optional extended runs
Instructions should be copy-pasteable and should not require the reviewer to infer hidden paths or environment variables.
Step 5 - Smoke Test the Artifact
When allowed by the user and environment, run at least:
- environment creation or dependency resolution
- import or CLI sanity check
- quickstart command
- one representative data/checkpoint load
- one expected-output comparison
If commands are too expensive, record the exact reason and create a minimal substitute test.
Step 6 - Handle Packaging Risks
Audit:
- anonymization vs public release state
- licenses for code, data, pretrained weights, and third-party assets
- large-file strategy and checksums
- private paths, credentials, API keys, and machine-specific assumptions
- random seeds and nondeterminism
- version pinning and dependency conflicts
- reviewer time budget and failure recovery
Route public release issues to release-code; route environment drift to reproducibility-audit if available.
Step 7 - Write the Artifact Evaluation Report
Read references/report-template.md.
If saving to a project and no path is given, use:
docs/submission/artifact_evaluation_prep_YYYY-MM-DD.md
The report must include:
- readiness decision
- blocking issues
- claim-to-artifact map
- package manifest summary
- smoke-test status
- reviewer instruction status
- risks, limitations, and reviewer-facing caveats
- handoff to release, camera-ready, or memory
Step 8 - Write Back to Project Memory
Read references/memory-writeback.md when memory exists.
Update artifact status, reproduction commands, blockers, claim support, release actions, and final handoff notes without copying full command logs into memory.
Final Sanity Check
Before finalizing:
- every important paper claim is either reproducible, smoke-tested, cached with explanation, or explicitly out of scope
- quickstart instructions have expected outputs and runtime
- hardware, data, checkpoints, licenses, and anonymity state are clear
- package paths and links are stable
- reviewer-facing failure modes are documented
- public-release and camera-ready obligations are routed
- project memory records artifact readiness and open blockers