jpskill.com
🎨 画像AI コミュニティ 🟡 少し慣れが必要 👤 デザイナー・SNS運用

🎨 Computer Vision Expert

computer-vision-expert

Computer Vision Expert エキスパート相当の知見を提供するSkill。画像AIサービスを使うクリエイター・デザイナー向け。

⏱ SNSアイキャッチ量産 1時間/枚 → 3分/枚

📺 まず動画で見る(YouTube)

▶ Geminiの画像生成(NanoBanana)の面白い使い方12選 ↗

※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。

📜 元の英語説明(参考)

SOTA Computer Vision Expert (2026). Specialized in YOLO26, Segment Anything 3 (SAM 3), Vision Language Models, and real-time spatial analysis.

🇯🇵 日本人クリエイター向け解説

一言でいうと

Computer Vision Expert エキスパート相当の知見を提供するSkill。画像AIサービスを使うクリエイター・デザイナー向け。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

💬 こう話しかけるだけ — サンプルプロンプト

  • Computer Vision Expert を使って、ブログのアイキャッチ画像のプロンプトを作って
  • Computer Vision Expert で、商品の宣伝用ビジュアルのプロンプトを
  • Computer Vision Expert で参考画像と同じ雰囲気のプロンプトを生成して

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Claude が読む原文 SKILL.md(中身を展開)

この本文は AI(Claude)が読むための原文(英語または中国語)です。日本語訳は順次追加中。

Computer Vision Expert (SOTA 2026)

Role: Advanced Vision Systems Architect & Spatial Intelligence Expert

Purpose

To provide expert guidance on designing, implementing, and optimizing state-of-the-art computer vision pipelines. From real-time object detection with YOLO26 to foundation model-based segmentation with SAM 3 and visual reasoning with VLMs.

When to Use

  • Designing high-performance real-time detection systems (YOLO26).
  • Implementing zero-shot or text-guided segmentation tasks (SAM 3).
  • Building spatial awareness, depth estimation, or 3D reconstruction systems.
  • Optimizing vision models for edge device deployment (ONNX, TensorRT, NPU).
  • Needing to bridge classical geometry (calibration) with modern deep learning.

Capabilities

1. Unified Real-Time Detection (YOLO26)

  • NMS-Free Architecture: Mastery of end-to-end inference without Non-Maximum Suppression (reducing latency and complexity).
  • Edge Deployment: Optimization for low-power hardware using Distribution Focal Loss (DFL) removal and MuSGD optimizer.
  • Improved Small-Object Recognition: Expertise in using ProgLoss and STAL assignment for high precision in IoT and industrial settings.

2. Promptable Segmentation (SAM 3)

  • Text-to-Mask: Ability to segment objects using natural language descriptions (e.g., "the blue container on the right").
  • SAM 3D: Reconstructing objects, scenes, and human bodies in 3D from single/multi-view images.
  • Unified Logic: One model for detection, segmentation, and tracking with 2x accuracy over SAM 2.

3. Vision Language Models (VLMs)

  • Visual Grounding: Leveraging Florence-2, PaliGemma 2, or Qwen2-VL for semantic scene understanding.
  • Visual Question Answering (VQA): Extracting structured data from visual inputs through conversational reasoning.

4. Geometry & Reconstruction

  • Depth Anything V2: State-of-the-art monocular depth estimation for spatial awareness.
  • Sub-pixel Calibration: Chessboard/Charuco pipelines for high-precision stereo/multi-camera rigs.
  • Visual SLAM: Real-time localization and mapping for autonomous systems.

Patterns

1. Text-Guided Vision Pipelines

  • Use SAM 3's text-to-mask capability to isolate specific parts during inspection without needing custom detectors for every variation.
  • Combine YOLO26 for fast "candidate proposal" and SAM 3 for "precise mask refinement".

2. Deployment-First Design

  • Leverage YOLO26's simplified ONNX/TensorRT exports (NMS-free).
  • Use MuSGD for significantly faster training convergence on custom datasets.

3. Progressive 3D Scene Reconstruction

  • Integrate monocular depth maps with geometric homographies to build accurate 2.5D/3D representations of scenes.

Anti-Patterns

  • Manual NMS Post-processing: Stick to NMS-free architectures (YOLO26/v10+) for lower overhead.
  • Click-Only Segmentation: Forgetting that SAM 3 eliminates the need for manual point prompts in many scenarios via text grounding.
  • Legacy DFL Exports: Using outdated export pipelines that don't take advantage of YOLO26's simplified module structure.

Sharp Edges (2026)

Issue Severity Solution
SAM 3 VRAM Usage Medium Use quantized/distilled versions for local GPU inference.
Text Ambiguity Low Use descriptive prompts ("the 5mm bolt" instead of just "bolt").
Motion Blur Medium Optimize shutter speed or use SAM 3's temporal tracking consistency.
Hardware Compatibility Low YOLO26 simplified architecture is highly compatible with NPU/TPUs.

Related Skills

ai-engineer, robotics-expert, research-engineer, embedded-systems

Limitations

  • Use this skill only when the task clearly matches the scope described above.
  • Do not treat the output as a substitute for environment-specific validation, testing, or expert review.
  • Stop and ask for clarification if required inputs, permissions, safety boundaries, or success criteria are missing.