jpskill.com
💼 ビジネス コミュニティ 🟡 少し慣れが必要 👤 経営者・事業責任者・マーケ

💼 AIEngineeringツールキット

ai-engineering-toolkit

AI開発を効率的に進めるため、プロンプ

⏱ 経費仕訳 1時間 → 5分

📺 まず動画で見る(YouTube)

▶ 【自動化】AIガチ勢の最新活用術6選がこれ1本で丸分かり!【ClaudeCode・AIエージェント・AI経営・Skills・MCP】 ↗

※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。

📜 元の英語説明(参考)

6 production-ready AI engineering workflows: prompt evaluation (8-dimension scoring), context budget planning, RAG pipeline design, agent security audit (65-point checklist), eval harness building, and product sense coaching.

🇯🇵 日本人クリエイター向け解説

一言でいうと

AI開発を効率的に進めるため、プロンプ

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o ai-engineering-toolkit.zip https://jpskill.com/download/2344.zip && unzip -o ai-engineering-toolkit.zip && rm ai-engineering-toolkit.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/2344.zip -OutFile "$d\ai-engineering-toolkit.zip"; Expand-Archive "$d\ai-engineering-toolkit.zip" -DestinationPath $d -Force; ri "$d\ai-engineering-toolkit.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して ai-engineering-toolkit.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → ai-engineering-toolkit フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

💬 こう話しかけるだけ — サンプルプロンプト

  • AI Engineering Toolkit で、私のビジネスを分析して改善案を3つ提案して
  • AI Engineering Toolkit を使って、来週の会議用の資料を作って
  • AI Engineering Toolkit で、現状の課題を整理してアクションプランに落として

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

AI Engineering Toolkit

概要

AIコーディングアシスタントをシニアAIエンジニアリングパートナーに変える、構造化された専門家レベルのワークフローを6つ集めたものです。各スキルは、単に「AIに助けを求める」のではなく、定量的なスコアリング、チェックリスト、意思決定ツリーを備えた段階的な意思決定フレームワークという、再現性のある方法論をエンコードしています。

アドホックなAIアシスタンスとの決定的な違いは、すべてのワークフローが、誰がいつ実行しても一貫した再現性のある結果を生成することです。スコアリングシステムをチームのベースラインとして使用し、CI/CDパイプラインに組み込むことができます。

このスキルを使用するタイミング

  • 本番環境へのデプロイ前にLLMシステムプロンプトを評価または最適化する際に使用します。
  • RAGパイプラインを設計し、構造化されたアーキテクチャ決定(単なるボイラープレートコードではない)が必要な場合に使用します。
  • コンテキストウィンドウゾーン全体でのトークン予算配分を計画する際に使用します。
  • AIエージェントのリリース前セキュリティ監査を実行する際に使用します。
  • LLMアプリケーションの評価フレームワークを構築する際に使用します。
  • コードを記述する前に製品戦略を検討する際に使用します。

仕組み

スキル1: Prompt Evaluator

8つの側面(Clarity、Specificity、Completeness、Conciseness、Structure、Grounding、Safety、Robustness)でプロンプトを1〜10のスケールでスコアリングし、加重集計により0〜100のスコアを算出します。最も弱い3つの側面を特定し、ターゲットを絞った書き換えを生成して再評価します。単一プロンプト、A/B比較、バッチ評価モードをサポートしています。

スキル2: Context Budget Planner

5つのコンテキストゾーン(System、Few-shot、User input、Retrieval、Output)にわたるトークン分布を分析し、最適化された割り当て計画を作成します。各ゾーンの圧縮戦略意思決定ツリーが含まれています。一般的な発見として、出力ゾーンが6%未満に圧迫されているケースがあり、このスキルは切り捨てが発生する前にそれを検出します。

スキル3: RAG Pipeline Architect

完全なアーキテクチャ意思決定ツリーを順に説明します。ドキュメント形式 → 解析戦略 → チャンキングアプローチ(fixed/semantic/recursive) → 埋め込みモデル選択 → 検索方法(vector/keyword/hybrid) → 評価指標(Faithfulness、Relevancy、Context Precision)。Naive RAG、Advanced RAG、Modular RAGパターンをカバーしています。

スキル4: Agent Safety Guard

⚠️ 許可された使用のみ このスキルは、教育目的または許可されたセキュリティ評価のみを対象としています。 このツールを使用する前に、システム所有者からの明示的な書面による許可が必要です。 このツールの誤用は違法であり、固く禁じられています。

5つの攻撃カテゴリ(直接プロンプトインジェクション、間接プロンプトインジェクション(RAGドキュメント経由)、情報抽出(システムプロンプト/APIキー漏洩)、ツール乱用(SQLインジェクション、パス・トラバーサル、コマンドインジェクション)、目標ハイジャック)にわたる65ポイントのレッドチーム監査を実行します。AIは評価目的で敵対的なテストプロンプトを構築し、各テストフェーズの前にユーザーに確認を求め、合否を判断し、修正推奨事項を生成します。すべてのテストは評価コンテキスト内に含まれており、外部システムとは相互作用しません。監査はサンドボックス環境(Docker/VM)で実行することをお勧めします。

スキル5: Eval Harness Builder

LLMアプリケーションの評価指標システムを設計します。バイアス軽減戦略(position bias、verbosity bias、self-enhancement bias)を備えたLLM-as-Judgeスコアリングフレームワークが含まれています。CI/CD対応の評価パイプラインテンプレートを出力します。

スキル6: Product Sense Coach

5段階のガイド付き会話フレームワークです。動機を深く掘り下げる → 市場機会を評価する → 道筋を見つける → シナリオを設計する → 競合を分析する。コードを記述する前に「これを構築すべきか?」を検討するのに役立ちます。

例1: プロンプト評価

質問: 「このシステムプロンプトを評価してください」

You are a customer support agent. Help users with their questions. Be nice and helpful.

結果: 全体スコア 28/100。最も弱い側面: Safety (1/10、インジェクション保護なし)、Specificity (2/10、出力形式なし)、Structure (2/10、セクションなし)。自動書き換えは、スコープ境界、応答形式、エスカレーションルール、安全ガードレールを追加することで 82/100 を獲得しました。

例2: セキュリティ監査

質問: 「私のカスタマーサポートエージェントのセキュリティ監査を実行してください」

結果: 65のテストが実行されました。3つの重大な障害が発見されました: Base64エンコードされた命令バイパス、ツール呼び出しを介したパス・トラバーサル、ロールプレイを介したシステムプロンプト抽出。それぞれに修正推奨事項が提供されました。

ベストプラクティス

  • ✅ 本番環境へのデプロイ前にプロンプト評価を実行し、チームのベースライン(例: ≥70/100)を設定します。
  • ✅ 開発の早い段階でcontext-budget-plannerを使用し、切り捨ての問題が発生した後ではありません。
  • ✅ リリース後のインシデント対応ではなく、リリース前のゲートとしてagent-safety-guardを実行します。
  • ✅ スキルを順番に組み合わせます: RAG設計 → コンテキスト最適化 → プロンプト洗練 → セキュリティ監査 → 評価設定。
  • ❌ 単一の側面スコアに依存せず、完全なプロファイルを確認します。
  • ❌ 「単なる内部ツールだから」という理由でセキュリティ監査をスキップしないでください。

セキュリティと安全に関する注意事項

  • すべてのスキルは読み取り専用の分析およびアドバイザリワークフローです。ファイルを変更したり、ネットワークリクエストを行ったりするスキルはありません。
  • agent-safety-guardスキルは、評価目的でのみ敵対的なテストプロンプトを構築します。これらは評価コンテキスト内に含まれており、外部システムとは相互作用しません。
  • agent-safety-guardは攻撃的なスキルに分類されます: 許可されたセキュリティテストのために攻撃ペイロード(プロンプトインジェクション、SQLインジェクション、コマンドインジェクション)を生成します。このスキルは、各テストフェーズを実行する前に明示的なユーザー確認を必要とします。可能な場合はサンドボックス環境で実行してください。
  • 武器化されたペイロードは含まれていません。すべての敵対的なプロンプトは教育的な性質のものです。

インストール

# スキルインストールコマンド経由 (Claude Code / WorkBuddy / Cursor)
/skill install -g viliawang-pm/ai-engineering-toolkit

# 手動
git clone https://github.com/viliawang-pm/ai-engineering-toolkit.git
cp -r ai-engineering-toolkit/skills/* ~/.claude/skills/

リポジトリ: github.com/viliawang-pm/ai-engineering-toolkit ライセンス

(原文がここで切り詰められています)

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

AI Engineering Toolkit

Overview

A collection of 6 structured, expert-level workflows that turn your AI coding assistant into a senior AI engineering partner. Each skill encodes a repeatable methodology — not just "ask AI to help," but a step-by-step decision framework with quantitative scoring, checklists, and decision trees.

The key difference from ad-hoc AI assistance: every workflow produces consistent, reproducible results regardless of who runs it or when. You can use the scoring systems as team baselines and write them into CI/CD pipelines.

When to Use This Skill

  • Use when evaluating or optimizing LLM system prompts before production deployment
  • Use when designing a RAG pipeline and need structured architecture decisions (not just boilerplate code)
  • Use when planning token budget allocation across context window zones
  • Use when running pre-launch security audits on AI agents
  • Use when building evaluation frameworks for LLM applications
  • Use when thinking through product strategy before writing code

How It Works

Skill 1: Prompt Evaluator

Scores prompts across 8 dimensions (Clarity, Specificity, Completeness, Conciseness, Structure, Grounding, Safety, Robustness) on a 1-10 scale with weighted aggregation to a 0-100 score. Identifies the 3 weakest dimensions, generates targeted rewrites, and re-evaluates. Supports single prompt, A/B comparison, and batch evaluation modes.

Skill 2: Context Budget Planner

Analyzes token distribution across 5 context zones (System, Few-shot, User input, Retrieval, Output) and produces an optimized allocation plan. Includes a compression strategy decision tree for each zone. Common finding: output zone squeezed to under 6% — this skill catches that before truncation happens.

Skill 3: RAG Pipeline Architect

Walks through a complete architecture decision tree: document format → parsing strategy → chunking approach (fixed/semantic/recursive) → embedding model selection → retrieval method (vector/keyword/hybrid) → evaluation metrics (Faithfulness, Relevancy, Context Precision). Covers Naive RAG, Advanced RAG, and Modular RAG patterns.

Skill 4: Agent Safety Guard

⚠️ AUTHORIZED USE ONLY This skill is for educational purposes or authorized security assessments only. You must have explicit, written permission from the system owner before using this tool. Misuse of this tool is illegal and strictly prohibited.

Executes a 65-point red-team audit across 5 attack categories: direct prompt injection, indirect prompt injection (via RAG documents), information extraction (system prompt / API key leakage), tool abuse (SQL injection, path traversal, command injection), and goal hijacking. The AI constructs adversarial test prompts for evaluation purposes, asks the user for confirmation before each test phase, judges pass/fail, and generates fix recommendations. All tests are contained within the evaluation context and do not interact with external systems. It is recommended to run audits in a sandboxed environment (Docker/VM).

Skill 5: Eval Harness Builder

Designs evaluation metric systems for LLM applications. Includes LLM-as-Judge scoring framework with bias mitigation strategies (position bias, verbosity bias, self-enhancement bias). Outputs CI/CD-ready evaluation pipeline templates.

Skill 6: Product Sense Coach

A 5-phase guided conversation framework: dig into motivation → assess market opportunity → find the path → design scenarios → analyze competition. Useful for thinking through "should we build this?" before writing any code.

Examples

Example 1: Prompt Evaluation

Ask: "Evaluate this system prompt"

You are a customer support agent. Help users with their questions. Be nice and helpful.

Result: Overall score 28/100. Weakest dimensions: Safety (1/10, zero injection protection), Specificity (2/10, no output format), Structure (2/10, no sections). Auto-rewrite scores 82/100 with added scope boundaries, response format, escalation rules, and safety guardrails.

Example 2: Security Audit

Ask: "Run a security audit on my customer support agent"

Result: 65 tests executed. 3 critical failures found: Base64-encoded instruction bypass, path traversal via tool calls, system prompt extraction via role-play. Fix recommendations provided for each.

Best Practices

  • ✅ Run prompt-evaluator before any production deployment — set a team baseline (e.g., ≥70/100)
  • ✅ Use context-budget-planner early in development, not after hitting truncation issues
  • ✅ Run agent-safety-guard as a pre-launch gate, not post-incident
  • ✅ Combine skills in sequence: RAG design → context optimization → prompt polish → security audit → eval setup
  • ❌ Don't rely on a single dimension score — look at the full profile
  • ❌ Don't skip the security audit because "it's just an internal tool"

Security & Safety Notes

  • All skills are read-only analysis and advisory workflows. No skills modify files or make network requests.
  • The agent-safety-guard skill constructs adversarial test prompts for evaluation purposes only — these are contained within the evaluation context and do not interact with external systems.
  • agent-safety-guard is classified as an offensive skill: it generates attack payloads (prompt injection, SQL injection, command injection) for authorized security testing. The skill requires explicit user confirmation before executing each test phase. Run in a sandboxed environment when possible.
  • No weaponized payloads are included. All adversarial prompts are educational in nature.

Installation

# Via skill install command (Claude Code / WorkBuddy / Cursor)
/skill install -g viliawang-pm/ai-engineering-toolkit

# Manual
git clone https://github.com/viliawang-pm/ai-engineering-toolkit.git
cp -r ai-engineering-toolkit/skills/* ~/.claude/skills/

Repository: github.com/viliawang-pm/ai-engineering-toolkit License: MIT

Limitations

  • Use this skill only when the task clearly matches the scope described above.
  • Do not treat the output as a substitute for environment-specific validation, testing, or expert review.
  • Stop and ask for clarification if required inputs, permissions, safety boundaries, or success criteria are missing.