jpskill.com
🛠️ 開発・MCP コミュニティ

evidence-verification

This skill teaches agents how to collect and verify evidence before marking tasks complete. Inspired by production-grade development practices, it ensures all claims are backed by executable proof:...

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o evidence-verification.zip https://jpskill.com/download/17246.zip && unzip -o evidence-verification.zip && rm evidence-verification.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/17246.zip -OutFile "$d\evidence-verification.zip"; Expand-Archive "$d\evidence-verification.zip" -DestinationPath $d -Force; ri "$d\evidence-verification.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して evidence-verification.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → evidence-verification フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

証拠に基づく検証スキル

バージョン: 1.0.0 タイプ: 品質保証 自動アクティブ化: コードレビュー、タスク完了、本番環境へのデプロイ

概要

このスキルは、エージェントがタスクを完了とする前に、証拠を収集し検証する方法を教えます。本番環境レベルの開発プラクティスに触発されており、すべての主張が実行可能な証拠によって裏付けられるようにします。証拠とは、テスト結果、カバレッジメトリクス、ビルドの成功、デプロイの検証などです。

重要な原則: 口頭ではなく、証拠を示してください。検証可能な証拠なしにタスクを完了とすることはできません。


このスキルを使用するタイミング

自動アクティブ化トリガー

  • コード実装の完了
  • コードレビューの終了
  • Squad モードでのタスク完了
  • エージェントの引き継ぎ前
  • 本番環境へのデプロイ検証

手動アクティブ化

  • ユーザーが「これが動作することを確認して」と要求した場合
  • プルリクエストを作成する前
  • 品質保証レビュー中
  • 障害のトラブルシューティング時

コアコンセプト

1. 証拠の種類

テスト証拠

  • 終了コード(成功の場合は 0 である必要があります)
  • テストスイートの結果(合格/不合格/スキップ)
  • カバレッジ率(利用可能な場合)
  • テスト時間

ビルド証拠

  • ビルド終了コード(0 = 成功)
  • コンパイルエラー/警告
  • 作成されたビルドアーティファクト
  • ビルド時間

デプロイ証拠

  • デプロイステータス(成功/失敗)
  • デプロイ先の環境
  • ヘルスチェックの結果
  • ロールバック機能の検証

コード品質証拠

  • リンターの結果(エラー/警告)
  • 型チェッカーの結果
  • セキュリティスキャンの結果
  • アクセシビリティ監査の結果

2. 証拠収集プロトコル

## 証拠収集の手順

1. **検証ポイントの特定**
   - 何を証明する必要があるか?
   - 何が問題になる可能性があるか?
   - 「完了」とは何を意味するか?

2. **検証の実行**
   - テストの実行
   - ビルドの実行
   - リンターの実行
   - デプロイの確認

3. **結果のキャプチャ**
   - 終了コードの記録
   - 出力スニペットの保存
   - タイムスタンプの記録
   - 環境のドキュメント化

4. **証拠の保存**
   - 共有コンテキストへの追加
   - タスク完了時の参照
   - アーティファクトへのリンク

3. 検証基準

最小限の証拠要件:

  • ✅ 少なくとも 1 つの検証タイプが実行されている
  • ✅ 終了コードがキャプチャされている(0 = 合格、0 以外 = 不合格)
  • ✅ タイムスタンプが記録されている
  • ✅ 証拠がコンテキストに保存されている

本番環境レベルの要件:

  • ✅ テストが終了コード 0 で実行されている
  • ✅ カバレッジ > 70%(またはプロジェクト標準)
  • ✅ ビルドが終了コード 0 で成功している
  • ✅ 重大なリンターエラーがない
  • ✅ セキュリティスキャンに合格している

証拠収集テンプレート

テンプレート 1: テスト証拠

テストを実行するときは、このテンプレートを使用します。

## テスト証拠

**コマンド:** `npm test` (または同等のもの)
**終了コード:** 0 ✅ / 0 以外 ❌
**時間:** X 秒
**結果:**
- 合格したテスト: X
- 失敗したテスト: X
- スキップされたテスト: X
- カバレッジ: X%

**出力スニペット:**

[テスト出力の最初の 10 行]


**タイムスタンプ:** YYYY-MM-DD HH:MM:SS
**環境:** Node vX.X.X, OS, etc.

テンプレート 2: ビルド証拠

ビルドするときは、このテンプレートを使用します。

## ビルド証拠

**コマンド:** `npm run build` (または同等のもの)
**終了コード:** 0 ✅ / 0 以外 ❌
**時間:** X 秒
**作成されたアーティファクト:**
- dist/bundle.js (XXX KB)
- dist/styles.css (XXX KB)

**エラー:** X
**警告:** X

**出力スニペット:**

[ビルド出力の最初の 10 行]


**タイムスタンプ:** YYYY-MM-DD HH:MM:SS

テンプレート 3: コード品質証拠

Lint と型チェックには、このテンプレートを使用します。

## コード品質証拠

**リンター:** ESLint / Ruff / etc.
**コマンド:** `npm run lint`
**終了コード:** 0 ✅ / 0 以外 ❌
**エラー:** X
**警告:** X

**型チェッカー:** TypeScript / mypy / etc.
**コマンド:** `npm run typecheck`
**終了コード:** 0 ✅ / 0 以外 ❌
**型エラー:** X

**タイムスタンプ:** YYYY-MM-DD HH:MM:SS

テンプレート 4: 複合証拠レポート

タスク完了には、この包括的なテンプレートを使用します。

## タスク完了証拠

### タスク: [タスクの説明]
### エージェント: [エージェント名]
### 完了: YYYY-MM-DD HH:MM:SS

### 検証結果

| チェック | コマンド | 終了コード | 結果 |
|-------|---------|-----------|--------|
| テスト | `npm test` | 0 | ✅ 45 件合格、0 件不合格 |
| ビルド | `npm run build` | 0 | ✅ バンドルが作成されました (234 KB) |
| リンター | `npm run lint` | 0 | ✅ エラーなし、警告 2 件 |
| 型 | `npm run typecheck` | 0 | ✅ 型エラーなし |

### カバレッジ
- ステートメント: 87%
- ブランチ: 82%
- 関数: 90%
- 行: 86%

### 証拠ファイル
- テスト出力: `.claude/quality-gates/evidence/tests-2025-XX-XX.log`
- ビルド出力: `.claude/quality-gates/evidence/build-2025-XX-XX.log`

### 結論
すべての検証チェックに合格しました。タスクはレビューの準備ができています。

ステップバイステップのワークフロー

ワークフロー 1: コード実装の検証

タイミング: 機能またはバグ修正のコードを作成した後

手順:

  1. すべてのファイルを保存する - 変更が書き込まれていることを確認します

  2. テストの実行

    npm test
    # または: pytest, cargo test, go test, etc.
    • 終了コードのキャプチャ
    • 合格/不合格のカウントの記録
    • カバレッジが利用可能な場合は記録
  3. ビルドの実行 (該当する場合)

    npm run build
    # または: cargo build, go build, etc.
    • 終了コードのキャプチャ
    • エラー/警告の記録
    • アーティファクトが作成されたことの確認
  4. リンターの実行

    npm run lint
    # または: ruff check, cargo clippy, golangci-lint run
    • 終了コードのキャプチャ
    • エラー/警告の記録
  5. 型チェッカーの実行 (該当する場合)

    npm run typecheck
    # または: mypy, tsc --noEmit
    • 終了コードのキャプチャ
    • 型エラーの記録
  6. 証拠のドキュメント化

    • テンプレート 4 (複合証拠レポート) を使用する
    • quality_evidence の下の共有コンテキストに追加する
    • タスク完了メッセージで参照する
  7. タスクを完了としてマークする (すべての証拠に合格した場合のみ)

ワークフロー 2: コードレビューの検証

タイミング: 別のエージェントのコードまたはユーザーの PR をレビューするとき

手順:

  1. コードの変更を読み取る

  2. テストの存在を確認する

    • 新しい機能のテストは存在するか?
    • テストはエッジケースをカバーしているか?
    • 既存のテストは更新されているか?
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Evidence-Based Verification Skill

Version: 1.0.0 Type: Quality Assurance Auto-activate: Code review, task completion, production deployment

Overview

This skill teaches agents how to collect and verify evidence before marking tasks complete. Inspired by production-grade development practices, it ensures all claims are backed by executable proof: test results, coverage metrics, build success, and deployment verification.

Key Principle: Show, don't tell. No task is complete without verifiable evidence.


When to Use This Skill

Auto-Activate Triggers

  • Completing code implementation
  • Finishing code review
  • Marking tasks complete in Squad mode
  • Before agent handoff
  • Production deployment verification

Manual Activation

  • When user requests "verify this works"
  • Before creating pull requests
  • During quality assurance reviews
  • When troubleshooting failures

Core Concepts

1. Evidence Types

Test Evidence

  • Exit code (must be 0 for success)
  • Test suite results (passed/failed/skipped)
  • Coverage percentage (if available)
  • Test duration

Build Evidence

  • Build exit code (0 = success)
  • Compilation errors/warnings
  • Build artifacts created
  • Build duration

Deployment Evidence

  • Deployment status (success/failed)
  • Environment deployed to
  • Health check results
  • Rollback capability verified

Code Quality Evidence

  • Linter results (errors/warnings)
  • Type checker results
  • Security scan results
  • Accessibility audit results

2. Evidence Collection Protocol

## Evidence Collection Steps

1. **Identify Verification Points**
   - What needs to be proven?
   - What could go wrong?
   - What does "complete" mean?

2. **Execute Verification**
   - Run tests
   - Run build
   - Run linters
   - Check deployments

3. **Capture Results**
   - Record exit codes
   - Save output snippets
   - Note timestamps
   - Document environment

4. **Store Evidence**
   - Add to shared context
   - Reference in task completion
   - Link to artifacts

3. Verification Standards

Minimum Evidence Requirements:

  • ✅ At least ONE verification type executed
  • ✅ Exit code captured (0 = pass, non-zero = fail)
  • ✅ Timestamp recorded
  • ✅ Evidence stored in context

Production-Grade Requirements:

  • ✅ Tests run with exit code 0
  • ✅ Coverage >70% (or project standard)
  • ✅ Build succeeds with exit code 0
  • ✅ No critical linter errors
  • ✅ Security scan passes

Evidence Collection Templates

Template 1: Test Evidence

Use this template when running tests:

## Test Evidence

**Command:** `npm test` (or equivalent)
**Exit Code:** 0 ✅ / non-zero ❌
**Duration:** X seconds
**Results:**
- Tests passed: X
- Tests failed: X
- Tests skipped: X
- Coverage: X%

**Output Snippet:**

[First 10 lines of test output]


**Timestamp:** YYYY-MM-DD HH:MM:SS
**Environment:** Node vX.X.X, OS, etc.

Template 2: Build Evidence

Use this template when building:

## Build Evidence

**Command:** `npm run build` (or equivalent)
**Exit Code:** 0 ✅ / non-zero ❌
**Duration:** X seconds
**Artifacts Created:**
- dist/bundle.js (XXX KB)
- dist/styles.css (XXX KB)

**Errors:** X
**Warnings:** X

**Output Snippet:**

[First 10 lines of build output]


**Timestamp:** YYYY-MM-DD HH:MM:SS

Template 3: Code Quality Evidence

Use this template for linting and type checking:

## Code Quality Evidence

**Linter:** ESLint / Ruff / etc.
**Command:** `npm run lint`
**Exit Code:** 0 ✅ / non-zero ❌
**Errors:** X
**Warnings:** X

**Type Checker:** TypeScript / mypy / etc.
**Command:** `npm run typecheck`
**Exit Code:** 0 ✅ / non-zero ❌
**Type Errors:** X

**Timestamp:** YYYY-MM-DD HH:MM:SS

Template 4: Combined Evidence Report

Use this comprehensive template for task completion:

## Task Completion Evidence

### Task: [Task description]
### Agent: [Agent name]
### Completed: YYYY-MM-DD HH:MM:SS

### Verification Results

| Check | Command | Exit Code | Result |
|-------|---------|-----------|--------|
| Tests | `npm test` | 0 | ✅ 45 passed, 0 failed |
| Build | `npm run build` | 0 | ✅ Bundle created (234 KB) |
| Linter | `npm run lint` | 0 | ✅ No errors, 2 warnings |
| Types | `npm run typecheck` | 0 | ✅ No type errors |

### Coverage
- Statements: 87%
- Branches: 82%
- Functions: 90%
- Lines: 86%

### Evidence Files
- Test output: `.claude/quality-gates/evidence/tests-2025-XX-XX.log`
- Build output: `.claude/quality-gates/evidence/build-2025-XX-XX.log`

### Conclusion
All verification checks passed. Task ready for review.

Step-by-Step Workflows

Workflow 1: Code Implementation Verification

When: After writing code for a feature or bug fix

Steps:

  1. Save all files - Ensure changes are written

  2. Run tests

    npm test
    # or: pytest, cargo test, go test, etc.
    • Capture exit code
    • Note passed/failed counts
    • Record coverage if available
  3. Run build (if applicable)

    npm run build
    # or: cargo build, go build, etc.
    • Capture exit code
    • Note any errors/warnings
    • Verify artifacts created
  4. Run linter

    npm run lint
    # or: ruff check, cargo clippy, golangci-lint run
    • Capture exit code
    • Note errors/warnings
  5. Run type checker (if applicable)

    npm run typecheck
    # or: mypy, tsc --noEmit
    • Capture exit code
    • Note type errors
  6. Document evidence

    • Use Template 4 (Combined Evidence Report)
    • Add to shared context under quality_evidence
    • Reference in task completion message
  7. Mark task complete (only if all evidence passes)

Workflow 2: Code Review Verification

When: Reviewing another agent's code or user's PR

Steps:

  1. Read the code changes

  2. Verify tests exist

    • Are there tests for new functionality?
    • Do tests cover edge cases?
    • Are existing tests updated?
  3. Run tests

    • Execute test suite
    • Verify exit code 0
    • Check coverage didn't decrease
  4. Check build

    • Ensure project still builds
    • No new build errors
  5. Verify code quality

    • Run linter
    • Run type checker
    • Check for security issues
  6. Document review evidence

    • Use Template 3 (Code Quality Evidence)
    • Note any issues found
    • Add to context
  7. Approve or request changes

    • Approve only if all evidence passes
    • If issues found, document them with evidence

Workflow 3: Production Deployment Verification

When: Deploying to production or staging

Steps:

  1. Pre-deployment checks

    • All tests pass (exit code 0)
    • Build succeeds
    • No critical linter errors
    • Security scan passes
  2. Execute deployment

    • Run deployment command
    • Capture output
  3. Post-deployment checks

    • Health check endpoint responds
    • Application starts successfully
    • No immediate errors in logs
    • Smoke tests pass
  4. Document deployment evidence

    ## Deployment Evidence
    
    **Environment:** production
    **Timestamp:** YYYY-MM-DD HH:MM:SS
    **Version:** vX.X.X
    
    **Pre-Deployment:**
    - Tests: ✅ Exit 0
    - Build: ✅ Exit 0
    - Security: ✅ No critical issues
    
    **Deployment:**
    - Command: `kubectl apply -f deployment.yaml`
    - Exit Code: 0 ✅
    
    **Post-Deployment:**
    - Health Check: ✅ 200 OK
    - Smoke Tests: ✅ All passed
    - Error Rate: <0.1%
  5. Verify rollback capability

    • Ensure previous version can be restored
    • Document rollback procedure

Evidence Storage

Where to Store Evidence

Shared Context (Primary)

{
  "quality_evidence": {
    "tests_run": true,
    "test_exit_code": 0,
    "coverage_percent": 87,
    "build_success": true,
    "build_exit_code": 0,
    "linter_errors": 0,
    "linter_warnings": 2,
    "timestamp": "2025-11-02T10:30:00Z"
  }
}

Evidence Files (Secondary)

  • .claude/quality-gates/evidence/ directory
  • One file per verification run
  • Format: {type}-{timestamp}.log
  • Example: tests-2025-11-02-103000.log

Task Completion Messages

  • Include evidence summary
  • Link to detailed evidence files
  • Example: "Task complete. Tests passed (exit 0, 87% coverage), build succeeded."

Quality Standards

Minimum Acceptable

Tests executed with captured exit code ✅ Timestamp recorded ✅ Evidence stored in context

Production-Grade

Tests pass (exit code 0) ✅ Coverage ≥70% (or project standard) ✅ Build succeeds (exit code 0) ✅ No critical linter errorsType checker passesSecurity scan shows no critical issues

Gold Standard

✅ All production-grade requirements ✅ Coverage ≥80%No linter warningsPerformance benchmarks within thresholds ✅ Accessibility audit passes (WCAG 2.1 AA) ✅ Integration tests pass ✅ Deployment verification complete


Common Pitfalls

❌ Don't Skip Evidence Collection

Bad:

"I've implemented the login feature. It should work correctly."

Good:

"I've implemented the login feature. Evidence:
- Tests: Exit code 0, 12 tests passed, 0 failed
- Build: Exit code 0, no errors
- Coverage: 89%
Task complete with verification."

❌ Don't Fake Evidence

Bad:

"Tests passed" (without actually running them)

Good:

"Tests passed. Exit code: 0
Command: npm test
Output: Test Suites: 3 passed, 3 total
Timestamp: 2025-11-02 10:30:15"

❌ Don't Ignore Failed Evidence

Bad:

"Build failed with exit code 1, but the code looks correct so marking complete."

Good:

"Build failed with exit code 1. Errors:
- TypeError: Cannot read property 'id' of undefined (line 42)
Fixing the error now before marking complete."

❌ Don't Collect Evidence Only Once

Bad:

"Tests passed yesterday, so the code is still good."

Good:

"Re-running tests after today's changes.
New evidence: Exit code 0, 45 tests passed, coverage 87%"

Integration with Other Systems

Context System Integration

Evidence is automatically tracked in shared context:

// Context structure includes:
{
  quality_evidence?: {
    tests_run: boolean;
    test_exit_code?: number;
    coverage_percent?: number;
    build_success?: boolean;
    linter_errors?: number;
    timestamp: string;
  }
}

Quality Gates Integration

Evidence collection feeds into quality gates:

  • Quality gates check if evidence exists
  • Block task completion if evidence missing
  • Escalate if evidence shows failures

Squad Mode Integration

In parallel execution:

  • Each agent collects evidence independently
  • Studio Coach validates evidence before sync
  • Blocked tasks don't waste parallel cycles

Quick Reference

Evidence Collection Checklist

Before marking task complete:

- [ ] Tests executed
- [ ] Test exit code captured (0 = pass)
- [ ] Build executed (if applicable)
- [ ] Build exit code captured (0 = pass)
- [ ] Code quality checks run (linter, types)
- [ ] Evidence documented with timestamp
- [ ] Evidence added to shared context
- [ ] Evidence summary in completion message

Common Commands by Language/Framework

JavaScript/TypeScript:

npm test                 # Run tests
npm run build           # Build project
npm run lint            # Run ESLint
npm run typecheck       # Run TypeScript compiler

Python:

pytest                  # Run tests
pytest --cov           # Run tests with coverage
ruff check .           # Run linter
mypy .                 # Run type checker

Rust:

cargo test             # Run tests
cargo build            # Build project
cargo clippy           # Run linter

Go:

go test ./...          # Run tests
go build               # Build project
golangci-lint run      # Run linter

Examples

See /skills/evidence-verification/examples/ for:

  • Sample evidence reports
  • Real-world verification scenarios
  • Integration examples

Version History

v1.0.0 - Initial release

  • Core evidence collection templates
  • Verification workflows
  • Quality standards
  • Integration with context system

Remember: Evidence-first development prevents hallucinations, ensures production quality, and builds confidence. When in doubt, collect more evidence, not less.