🛠️ 開発・MCP コミュニティ

image-generator

Geminiを活用し、章のイラストや図解、教材ビジュアルなど、ビジネスシーンで役立つプロ品質の画像を、品質管理を徹底しながら自動生成するSkill。

📜 元の英語説明(参考)

Generate professional visuals using Gemini via browser automation with 6-gate quality control. Use when creating chapter illustrations, diagrams, or teaching visuals. NOT for stock photos or decorative images.

🇯🇵 日本人クリエイター向け解説

一言でいうと

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o image-generator.zip https://jpskill.com/download/16864.zip && unzip -o image-generator.zip && rm image-generator.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/16864.zip -OutFile "$d\image-generator.zip"; Expand-Archive "$d\image-generator.zip" -DestinationPath $d -Force; ri "$d\image-generator.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して image-generator.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → image-generator フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-18
取得日時: 2026-05-18
同梱ファイル: 1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Image Generator

Gemini 3 と複数ターンの推論パートナーシップを活用して、プロフェッショナルな教材ビジュアルを生成します。

クイックスタート

# 1. ブラウザを起動します (browser-use スキルを使用)
bash .claude/skills/browser-use/scripts/start-server.sh

# 2. Gemini に移動します
# browser_navigate を使用して https://gemini.google.com/ に移動します

# 3. クリエイティブ・ブリーフから画像を生成します
# クリエイティブ・ブリーフを貼り付け → 30-35 秒待ち → 6 つのゲートを検証 → ダウンロード

主要な原則

予測よりも推論 - クリエイティブ・ブリーフ (ストーリー/意図/メタファー) は推論を活性化します。ピクセル仕様はそうではありません。
複数ターンのパートナーシップ - 原則に基づいたフィードバックを通じて、Gemini にあなたの基準を教えます。
6 つのゲートによる品質 - ダウンロード前に明示的な合格/不合格を判断します。
自律的なバッチ処理 - ビジュアル間で許可を求めることはありません。

入力: クリエイティブ・ブリーフの形式

visual-asset-workflow から受け取ります。

## ストーリー
[視覚化される内容に関するナラティブ]

## 感情的な意図
[どのような感じであるべきか]

## 視覚的なメタファー
[瞬時に理解できる普遍的な概念]

## 主題 / 構成 / アクション / 場所 / スタイル
[Gemini 3 のプロンプト構造]

## 色のセマンティクス
青 (#2563eb) = 権威 | 緑 (#10b981) = 実行

## タイポグラフィの階層
最大: 主要な洞察 | 中: サポート | 最小: コンテキスト

ピクセル仕様に変換しないでください - 推論を活性化するために、そのまま使用してください。

ワークフロー (ビジュアルごと)

ステップ	アクション	ツール
1	gemini.google.com に移動	browser_navigate
2	"🍌 Create Image" を選択	browser_click
3	クリエイティブ・ブリーフを貼り付け	browser_type
4	30-35 秒待ちます	browser_wait_for
5	6 つのゲートを検証します (下記)	目視検査
6	不合格の場合: フィードバックを繰り返します (最大 3 回)	browser_type
7	合格の場合: フルサイズをダウンロード	browser_click
8	`apps/learn-app/static/img/part-{N}/chapter-{NN}/` にコピー	Bash
9	すぐにレッスンに埋め込みます	Edit
10	次のビジュアルのために新しいチャットを開始	browser_navigate

品質ゲート (すべて合格する必要があります)

ゲート	基準	不合格時のアクション
1. スペル	99% の精度 (Y-Combinator, Kubernetes)	繰り返します
2. レイアウト	プロンプトと一致するプロポーション (3×1 ではなく 2×2)	繰り返します
3. 色	ブランドカラーと一致する (#002050 ではなく #2563eb)	繰り返します
4. タイポグラフィ	最大 = 主要な概念 (装飾ではない)	繰り返します
5. 教材	目標レベルで <5 秒で概念を把握できること	繰り返します
6. ユニークさ	既存のチャプター画像と重複していないこと	新しいチャット

決定: すべて合格 → ダウンロード | いずれかが不合格 → 繰り返します (最大 3 回)

反復: 原則に基づいたフィードバック

ゲートが不合格の場合、教材に関するフィードバックを提供します。

ゲート 4 が不合格: タイポグラフィの階層が正しくありません

最大のテキストは "$100K" (サポートの詳細) ですが、"$3T"
(生徒が把握する必要がある主要な洞察) である必要があります。

'$3T' を支配的なサイズに増やします。'$100K' をサポートサイズに縮小します。
情報の重要性がサイズを決定します。

バッチモード

"generate all visuals" で呼び出された場合:

リスト内の各ビジュアルについて:
  A. 新しいチャット (コンテキストの分離)
  B. 生成 (ブリーフを貼り付け)
  C. 6 つのゲートを検証
  D. 必要に応じて繰り返します (最大 3 回)
  E. 合格したらダウンロード
  F. レッスンに埋め込み
  G. "✅ N/M" をログに記録
  H. 次へ (停止しない)

決して尋ねないでください: "続行しますか？" "ここで一時停止しますか？" "レビューしますか？"

最後にのみ報告:

バッチ完了
✅ 生成済み: 16/18
⚠️ 保留: 2 (品質の問題)
場所: apps/learn-app/static/img/part-{N}/

習熟度の制限

レベル	最大要素数	把握時間
A2	5-7	<5 秒
B1	7-10	<10 秒
C2	制限なし	N/A

トークンの節約 (バッチモード)

8 個のビジュアルの場合、ブリーフを凝縮します。

オリジナル (250 トークン):

"最上層は、中央上部に 'Orchestrator' というラベルの付いたコーディネーターを示しています
指揮者のアイコンが特徴で、役割は '戦略的監督'..."

凝縮 (80 トークン):

"最上層 - コーディネーター: 中央上部、'Orchestrator' (指揮者)、
役割: '戦略的監督'、ゴールド (#fbbf24)、大きな六角形。"

維持: ストーリー、意図、メタファー、色、推論凝縮: 長い例 → 短いラベル

アンチパターン

しないこと	理由
6 つのゲートなしで最初の出力を受け入れる	品質基準違反
バッチアイテム間で許可を求める	自律的なエージェンシーを阻害する
ブリーフをピクセル仕様に変換する	推論の活性化を阻害する
埋め込みステップをスキップする	孤立した画像を作成する
次のビジュアルに同じチャットを再利用する	コンテキストの汚染

セッションの中断

セッションがバッチの途中で終了した場合、チェックポイントを作成します。

# チェックポイント: パート {N}
ステータス: 8/18 で中断

## 完了:
- ✅ 画像 1: ファイル名 (埋め込み lesson-01.md)
- ✅ 画像 2: ファイル名 (埋め込み lesson-02.md)

## 残り:
- ⏳ 画像 8: ファイル名

継続時: チェックポイントを読み取り → 再開 → 段階的に更新

成功指標

✅ ダウンロード前に 6 つのゲートすべてが検証されていること
✅ 許可を求めることなくバッチが完了すること
✅ 原則に基づいた反復フィードバック
✅ 画像がパート/チャプターごとに整理されていること
✅ 即時埋め込み (孤立した画像がないこと)
✅ >85% の製品化準備完了率

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Image Generator

Generate professional teaching visuals using Gemini 3 with multi-turn reasoning partnership.

Quick Start

# 1. Start browser (via browser-use skill)
bash .claude/skills/browser-use/scripts/start-server.sh

# 2. Navigate to Gemini
# Use browser_navigate to https://gemini.google.com/

# 3. Generate image from creative brief
# Paste creative brief → Wait 30-35s → Verify 6 gates → Download

Core Principles

Reasoning over prediction - Creative briefs (Story/Intent/Metaphor) activate reasoning; pixel specs don't
Multi-turn partnership - Teach Gemini your standards through principle-based feedback
6-gate quality - Explicit pass/fail before download
Autonomous batch - No permission-asking between visuals

Input: Creative Brief Format

Receive from visual-asset-workflow:

## The Story
[Narrative about what's visualized]

## Emotional Intent
[What it should FEEL like]

## Visual Metaphor
[Universal concept for instant comprehension]

## Subject / Composition / Action / Location / Style
[Gemini 3 prompt structure]

## Color Semantics
Blue (#2563eb) = Authority | Green (#10b981) = Execution

## Typography Hierarchy
Largest: Key insight | Medium: Supporting | Smallest: Context

Do NOT convert to pixel specs - use as-is to activate reasoning.

Workflow (Per Visual)

Step	Action	Tool
1	Navigate to gemini.google.com	browser_navigate
2	Select "🍌 Create Image"	browser_click
3	Paste creative brief	browser_type
4	Wait 30-35 seconds	browser_wait_for
5	Verify 6 gates (below)	Visual inspection
6	If fail: Iterate with feedback (max 3)	browser_type
7	If pass: Download full size	browser_click
8	Copy to `apps/learn-app/static/img/part-{N}/chapter-{NN}/`	Bash
9	Embed in lesson immediately	Edit
10	NEW CHAT for next visual	browser_navigate

Quality Gates (ALL Must Pass)

Gate	Criterion	Fail Action
1. Spelling	99% accuracy (Y-Combinator, Kubernetes)	Iterate
2. Layout	Proportions match prompt (2×2 not 3×1)	Iterate
3. Color	Brand colors match (#2563eb not #002050)	Iterate
4. Typography	Largest = key concept (not decoration)	Iterate
5. Teaching	<5 sec concept grasp at target proficiency	Iterate
6. Uniqueness	Not duplicate of existing chapter image	New chat

Decision: ALL pass → Download | ANY fail → Iterate (max 3 tries)

Iteration: Principle-Based Feedback

When gate fails, provide teaching feedback:

Gate 4 FAILED: Typography hierarchy incorrect

The largest text is "$100K" (supporting detail) but should be "$3T"
(key insight students must grasp).

Increase '$3T' to dominant size. Reduce '$100K' to supporting size.
Information importance drives sizing.

Batch Mode

When invoked with "generate all visuals":

For EACH visual in list:
  A. NEW CHAT (context isolation)
  B. Generate (paste brief)
  C. Verify 6 gates
  D. Iterate if needed (max 3)
  E. Download when pass
  F. Embed in lesson
  G. Log "✅ N/M"
  H. NEXT (no stopping)

Never ask: "Continue?" "Pause here?" "Review?"

Report at END only:

BATCH COMPLETE
✅ Generated: 16/18
⚠️ Deferred: 2 (quality issues)
Location: apps/learn-app/static/img/part-{N}/

Proficiency Limits

Level	Max Elements	Grasp Time
A2	5-7	<5 sec
B1	7-10	<10 sec
C2	No limit	N/A

Token Conservation (Batch Mode)

For >8 visuals, condense briefs:

Original (250 tokens):

"Top Layer shows Coordinator at center top with label 'Orchestrator'
featuring conductor icon, with role 'Strategic oversight'..."

Condensed (80 tokens):

"Top Layer - Coordinator: Center top, 'Orchestrator' (conductor),
Role: 'Strategic oversight', Gold (#fbbf24), Large hexagon."

Keep: Story, Intent, Metaphor, Colors, Reasoning Condense: Long examples → Short labels

Anti-Patterns

Don't	Why
Accept first output without 6 gates	Quality standard violation
Ask permission between batch items	Breaks autonomous agency
Convert briefs to pixel specs	Defeats reasoning activation
Skip embedding step	Creates orphan images
Reuse same chat for next visual	Context contamination

Session Interruption

If session ends mid-batch, create checkpoint:

# Checkpoint: Part {N}
Status: INTERRUPTED at 8/18

## Completed:
- ✅ Image 1: filename (embedded lesson-01.md)
- ✅ Image 2: filename (embedded lesson-02.md)

## Remaining:
- ⏳ Image 8: filename

On continuation: Read checkpoint → Resume → Update incrementally

Success Indicators

✅ All 6 gates verified before download
✅ Batch completion without permission-asking
✅ Principle-based iteration feedback
✅ Images organized by part/chapter
✅ Immediate embedding (no orphans)
✅ >85% production-ready rate