image-generator
Geminiを活用し、章のイラストや図解、教材ビジュアルなど、ビジネスシーンで役立つプロ品質の画像を、品質管理を徹底しながら自動生成するSkill。
📜 元の英語説明(参考)
Generate professional visuals using Gemini via browser automation with 6-gate quality control. Use when creating chapter illustrations, diagrams, or teaching visuals. NOT for stock photos or decorative images.
🇯🇵 日本人クリエイター向け解説
Geminiを活用し、章のイラストや図解、教材ビジュアルなど、ビジネスシーンで役立つプロ品質の画像を、品質管理を徹底しながら自動生成するSkill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o image-generator.zip https://jpskill.com/download/16864.zip && unzip -o image-generator.zip && rm image-generator.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/16864.zip -OutFile "$d\image-generator.zip"; Expand-Archive "$d\image-generator.zip" -DestinationPath $d -Force; ri "$d\image-generator.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
image-generator.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
image-generatorフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-18
- 取得日時
- 2026-05-18
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
Image Generator
Gemini 3 と複数ターンの推論パートナーシップを活用して、プロフェッショナルな教材ビジュアルを生成します。
クイックスタート
# 1. ブラウザを起動します (browser-use スキルを使用)
bash .claude/skills/browser-use/scripts/start-server.sh
# 2. Gemini に移動します
# browser_navigate を使用して https://gemini.google.com/ に移動します
# 3. クリエイティブ・ブリーフから画像を生成します
# クリエイティブ・ブリーフを貼り付け → 30-35 秒待ち → 6 つのゲートを検証 → ダウンロード
主要な原則
- 予測よりも推論 - クリエイティブ・ブリーフ (ストーリー/意図/メタファー) は推論を活性化します。ピクセル仕様はそうではありません。
- 複数ターンのパートナーシップ - 原則に基づいたフィードバックを通じて、Gemini にあなたの基準を教えます。
- 6 つのゲートによる品質 - ダウンロード前に明示的な合格/不合格を判断します。
- 自律的なバッチ処理 - ビジュアル間で許可を求めることはありません。
入力: クリエイティブ・ブリーフの形式
visual-asset-workflow から受け取ります。
## ストーリー
[視覚化される内容に関するナラティブ]
## 感情的な意図
[どのような感じであるべきか]
## 視覚的なメタファー
[瞬時に理解できる普遍的な概念]
## 主題 / 構成 / アクション / 場所 / スタイル
[Gemini 3 のプロンプト構造]
## 色のセマンティクス
青 (#2563eb) = 権威 | 緑 (#10b981) = 実行
## タイポグラフィの階層
最大: 主要な洞察 | 中: サポート | 最小: コンテキスト
ピクセル仕様に変換しないでください - 推論を活性化するために、そのまま使用してください。
ワークフロー (ビジュアルごと)
| ステップ | アクション | ツール |
|---|---|---|
| 1 | gemini.google.com に移動 | browser_navigate |
| 2 | "🍌 Create Image" を選択 | browser_click |
| 3 | クリエイティブ・ブリーフを貼り付け | browser_type |
| 4 | 30-35 秒待ちます | browser_wait_for |
| 5 | 6 つのゲートを検証します (下記) | 目視検査 |
| 6 | 不合格の場合: フィードバックを繰り返します (最大 3 回) | browser_type |
| 7 | 合格の場合: フルサイズをダウンロード | browser_click |
| 8 | apps/learn-app/static/img/part-{N}/chapter-{NN}/ にコピー |
Bash |
| 9 | すぐにレッスンに埋め込みます | Edit |
| 10 | 次のビジュアルのために新しいチャットを開始 | browser_navigate |
品質ゲート (すべて合格する必要があります)
| ゲート | 基準 | 不合格時のアクション |
|---|---|---|
| 1. スペル | 99% の精度 (Y-Combinator, Kubernetes) | 繰り返します |
| 2. レイアウト | プロンプトと一致するプロポーション (3×1 ではなく 2×2) | 繰り返します |
| 3. 色 | ブランドカラーと一致する (#002050 ではなく #2563eb) | 繰り返します |
| 4. タイポグラフィ | 最大 = 主要な概念 (装飾ではない) | 繰り返します |
| 5. 教材 | 目標レベルで <5 秒で概念を把握できること | 繰り返します |
| 6. ユニークさ | 既存のチャプター画像と重複していないこと | 新しいチャット |
決定: すべて合格 → ダウンロード | いずれかが不合格 → 繰り返します (最大 3 回)
反復: 原則に基づいたフィードバック
ゲートが不合格の場合、教材に関するフィードバックを提供します。
ゲート 4 が不合格: タイポグラフィの階層が正しくありません
最大のテキストは "$100K" (サポートの詳細) ですが、"$3T"
(生徒が把握する必要がある主要な洞察) である必要があります。
'$3T' を支配的なサイズに増やします。'$100K' をサポートサイズに縮小します。
情報の重要性がサイズを決定します。
バッチモード
"generate all visuals" で呼び出された場合:
リスト内の各ビジュアルについて:
A. 新しいチャット (コンテキストの分離)
B. 生成 (ブリーフを貼り付け)
C. 6 つのゲートを検証
D. 必要に応じて繰り返します (最大 3 回)
E. 合格したらダウンロード
F. レッスンに埋め込み
G. "✅ N/M" をログに記録
H. 次へ (停止しない)
決して尋ねないでください: "続行しますか?" "ここで一時停止しますか?" "レビューしますか?"
最後にのみ報告:
バッチ完了
✅ 生成済み: 16/18
⚠️ 保留: 2 (品質の問題)
場所: apps/learn-app/static/img/part-{N}/
習熟度の制限
| レベル | 最大要素数 | 把握時間 |
|---|---|---|
| A2 | 5-7 | <5 秒 |
| B1 | 7-10 | <10 秒 |
| C2 | 制限なし | N/A |
トークンの節約 (バッチモード)
8 個のビジュアルの場合、ブリーフを凝縮します。
オリジナル (250 トークン):
"最上層は、中央上部に 'Orchestrator' というラベルの付いたコーディネーターを示しています
指揮者のアイコンが特徴で、役割は '戦略的監督'..."
凝縮 (80 トークン):
"最上層 - コーディネーター: 中央上部、'Orchestrator' (指揮者)、
役割: '戦略的監督'、ゴールド (#fbbf24)、大きな六角形。"
維持: ストーリー、意図、メタファー、色、推論 凝縮: 長い例 → 短いラベル
アンチパターン
| しないこと | 理由 |
|---|---|
| 6 つのゲートなしで最初の出力を受け入れる | 品質基準違反 |
| バッチアイテム間で許可を求める | 自律的なエージェンシーを阻害する |
| ブリーフをピクセル仕様に変換する | 推論の活性化を阻害する |
| 埋め込みステップをスキップする | 孤立した画像を作成する |
| 次のビジュアルに同じチャットを再利用する | コンテキストの汚染 |
セッションの中断
セッションがバッチの途中で終了した場合、チェックポイントを作成します。
# チェックポイント: パート {N}
ステータス: 8/18 で中断
## 完了:
- ✅ 画像 1: ファイル名 (埋め込み lesson-01.md)
- ✅ 画像 2: ファイル名 (埋め込み lesson-02.md)
## 残り:
- ⏳ 画像 8: ファイル名
継続時: チェックポイントを読み取り → 再開 → 段階的に更新
成功指標
- ✅ ダウンロード前に 6 つのゲートすべてが検証されていること
- ✅ 許可を求めることなくバッチが完了すること
- ✅ 原則に基づいた反復フィードバック
- ✅ 画像がパート/チャプターごとに整理されていること
- ✅ 即時埋め込み (孤立した画像がないこと)
- ✅ >85% の製品化準備完了率
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
Image Generator
Generate professional teaching visuals using Gemini 3 with multi-turn reasoning partnership.
Quick Start
# 1. Start browser (via browser-use skill)
bash .claude/skills/browser-use/scripts/start-server.sh
# 2. Navigate to Gemini
# Use browser_navigate to https://gemini.google.com/
# 3. Generate image from creative brief
# Paste creative brief → Wait 30-35s → Verify 6 gates → Download
Core Principles
- Reasoning over prediction - Creative briefs (Story/Intent/Metaphor) activate reasoning; pixel specs don't
- Multi-turn partnership - Teach Gemini your standards through principle-based feedback
- 6-gate quality - Explicit pass/fail before download
- Autonomous batch - No permission-asking between visuals
Input: Creative Brief Format
Receive from visual-asset-workflow:
## The Story
[Narrative about what's visualized]
## Emotional Intent
[What it should FEEL like]
## Visual Metaphor
[Universal concept for instant comprehension]
## Subject / Composition / Action / Location / Style
[Gemini 3 prompt structure]
## Color Semantics
Blue (#2563eb) = Authority | Green (#10b981) = Execution
## Typography Hierarchy
Largest: Key insight | Medium: Supporting | Smallest: Context
Do NOT convert to pixel specs - use as-is to activate reasoning.
Workflow (Per Visual)
| Step | Action | Tool |
|---|---|---|
| 1 | Navigate to gemini.google.com | browser_navigate |
| 2 | Select "🍌 Create Image" | browser_click |
| 3 | Paste creative brief | browser_type |
| 4 | Wait 30-35 seconds | browser_wait_for |
| 5 | Verify 6 gates (below) | Visual inspection |
| 6 | If fail: Iterate with feedback (max 3) | browser_type |
| 7 | If pass: Download full size | browser_click |
| 8 | Copy to apps/learn-app/static/img/part-{N}/chapter-{NN}/ |
Bash |
| 9 | Embed in lesson immediately | Edit |
| 10 | NEW CHAT for next visual | browser_navigate |
Quality Gates (ALL Must Pass)
| Gate | Criterion | Fail Action |
|---|---|---|
| 1. Spelling | 99% accuracy (Y-Combinator, Kubernetes) | Iterate |
| 2. Layout | Proportions match prompt (2×2 not 3×1) | Iterate |
| 3. Color | Brand colors match (#2563eb not #002050) | Iterate |
| 4. Typography | Largest = key concept (not decoration) | Iterate |
| 5. Teaching | <5 sec concept grasp at target proficiency | Iterate |
| 6. Uniqueness | Not duplicate of existing chapter image | New chat |
Decision: ALL pass → Download | ANY fail → Iterate (max 3 tries)
Iteration: Principle-Based Feedback
When gate fails, provide teaching feedback:
Gate 4 FAILED: Typography hierarchy incorrect
The largest text is "$100K" (supporting detail) but should be "$3T"
(key insight students must grasp).
Increase '$3T' to dominant size. Reduce '$100K' to supporting size.
Information importance drives sizing.
Batch Mode
When invoked with "generate all visuals":
For EACH visual in list:
A. NEW CHAT (context isolation)
B. Generate (paste brief)
C. Verify 6 gates
D. Iterate if needed (max 3)
E. Download when pass
F. Embed in lesson
G. Log "✅ N/M"
H. NEXT (no stopping)
Never ask: "Continue?" "Pause here?" "Review?"
Report at END only:
BATCH COMPLETE
✅ Generated: 16/18
⚠️ Deferred: 2 (quality issues)
Location: apps/learn-app/static/img/part-{N}/
Proficiency Limits
| Level | Max Elements | Grasp Time |
|---|---|---|
| A2 | 5-7 | <5 sec |
| B1 | 7-10 | <10 sec |
| C2 | No limit | N/A |
Token Conservation (Batch Mode)
For >8 visuals, condense briefs:
Original (250 tokens):
"Top Layer shows Coordinator at center top with label 'Orchestrator'
featuring conductor icon, with role 'Strategic oversight'..."
Condensed (80 tokens):
"Top Layer - Coordinator: Center top, 'Orchestrator' (conductor),
Role: 'Strategic oversight', Gold (#fbbf24), Large hexagon."
Keep: Story, Intent, Metaphor, Colors, Reasoning Condense: Long examples → Short labels
Anti-Patterns
| Don't | Why |
|---|---|
| Accept first output without 6 gates | Quality standard violation |
| Ask permission between batch items | Breaks autonomous agency |
| Convert briefs to pixel specs | Defeats reasoning activation |
| Skip embedding step | Creates orphan images |
| Reuse same chat for next visual | Context contamination |
Session Interruption
If session ends mid-batch, create checkpoint:
# Checkpoint: Part {N}
Status: INTERRUPTED at 8/18
## Completed:
- ✅ Image 1: filename (embedded lesson-01.md)
- ✅ Image 2: filename (embedded lesson-02.md)
## Remaining:
- ⏳ Image 8: filename
On continuation: Read checkpoint → Resume → Update incrementally
Success Indicators
- ✅ All 6 gates verified before download
- ✅ Batch completion without permission-asking
- ✅ Principle-based iteration feedback
- ✅ Images organized by part/chapter
- ✅ Immediate embedding (no orphans)
- ✅ >85% production-ready rate