jpskill.com
🛠️ 開発・MCP コミュニティ 🔴 エンジニア向け 👤 エンジニア・AI開発者

🛠️ PipecatFridayエージェント

pipecat-friday-agent

Pipecat、Gemini、OpenAIといった技術を

⏱ MCPサーバー実装 1日 → 2時間

📺 まず動画で見る(YouTube)

▶ 【衝撃】最強のAIエージェント「Claude Code」の最新機能・使い方・プログラミングをAIで効率化する超実践術を解説! ↗

※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。

📜 元の英語説明(参考)

Build a low-latency, Iron Man-inspired tactical voice assistant (F.R.I.D.A.Y.) using Pipecat, Gemini, and OpenAI.

🇯🇵 日本人クリエイター向け解説

一言でいうと

Pipecat、Gemini、OpenAIといった技術を

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o pipecat-friday-agent.zip https://jpskill.com/download/3288.zip && unzip -o pipecat-friday-agent.zip && rm pipecat-friday-agent.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/3288.zip -OutFile "$d\pipecat-friday-agent.zip"; Expand-Archive "$d\pipecat-friday-agent.zip" -DestinationPath $d -Force; ri "$d\pipecat-friday-agent.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して pipecat-friday-agent.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → pipecat-friday-agent フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
2

💬 こう話しかけるだけ — サンプルプロンプト

  • Pipecat Friday Agent を使って、最小構成のサンプルコードを示して
  • Pipecat Friday Agent の主な使い方と注意点を教えて
  • Pipecat Friday Agent を既存プロジェクトに組み込む方法を教えて

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Pipecat Friday エージェント

概要

このスキルは、映画「アイアンマン」に登場する戦術AIにインスパイアされたローカル音声アシスタント、F.R.I.D.A.Y. (Replacement Integrated Digital Assistant Youth) を構築するための青写真を提供します。Pipecat フレームワークを使用して、低遅延のパイプラインをオーケストレーションします。

  • STT: OpenAI Whisper (whisper-1) または gpt-4o-transcribe
  • LLM: Google Gemini 2.5 Flash (互換性シム経由)
  • TTS: OpenAI TTS (nova 音声)
  • トランスポート: ローカルオーディオ (ハードウェアマイク/スピーカー)

このスキルを使用する場面

  • リアルタイムの会話型音声エージェントを構築したい場合に使用します。
  • パイプラインベースのAIにPipecatフレームワークを使用する場合に使用します。
  • 複数のプロバイダー (GoogleとOpenAI) を単一の音声ループに統合する必要がある場合に使用します。
  • アイアンマンをテーマにした、または戦術をテーマにした音声アプリケーションを構築する場合に使用します。

仕組み

ステップ1: 依存関係のインストール

Pipecat フレームワークとそのサービスプロバイダーをインストールする必要があります。

pip install pipecat-ai[openai,google,silero] python-dotenv

ステップ2: 環境設定

APIキーを含む .env ファイルを作成します。

OPENAI_API_KEY=your_openai_key
GOOGLE_API_KEY=your_google_key

ステップ3: エージェントの実行

提供されているPythonスクリプトを実行してインターフェースを開始します。

python scripts/friday_agent.py

コアコンセプト

パイプラインアーキテクチャ

このエージェントは、Mic -> VAD -> STT -> LLM -> TTS -> Speaker という線形パイプラインに従います。これにより、エンドツーエンドの音声合成モデルとは異なり、各ステージをきめ細かく制御できます。

Google互換性シム

GoogleのGemini APIはOpenAIの標準 (Pipecatアグリゲーターが期待するもの) とは異なるメッセージ形式であるため、スクリプトにはギャップを埋めるための GoogleSafeContext および GoogleSafeMessage クラスが含まれています。

ベストプラクティス

  • Silero VADを使用する: ローカルハードウェアに対して堅牢であり、バックグラウンドノイズがLLMをトリガーするのを防ぎます。
  • 簡潔なプロンプト: 戦術エージェントは、遅延を最小限に抑えるために、短くデータ密度の高い応答をすべきです。
  • サンプルレートの一致: OpenAI TTSは24kHzで出力します。高音になったり、遅くなったりするのを避けるために、audio_out_sample_rate が一致していることを確認してください。
  • 丁寧なフィラーは避ける: 「こんにちは、何かお手伝いできますか?」ではなく、「システムは正常です。コマンドを待機しています。」のように使用します。

トラブルシューティング

  • 問題: 音声が途切れたり、遅延したりします。
    • 解決策: OUTPUT_DEVICE インデックスを確認してください。test_audio_output.py のようなスクリプトを実行して、OSの正しいハードウェアインデックスを見つけてください。
  • 問題: メッセージ形式の「Validation error」が発生します。
    • 解決策: GoogleSafeContext シムがOpenAIスタイルの辞書をGeminiスタイルのスキーマに正しく変換していることを確認してください。

関連スキル

  • @voice-agents - 音声AIの一般原則。
  • @agent-tool-builder - Fridayエージェントにツール (検索、照明など) を追加します。
  • @llm-architect - LLMレイヤーの最適化。

制限事項

  • このスキルは、タスクが上記の範囲と明確に一致する場合にのみ使用してください。
  • 出力を、環境固有の検証、テスト、または専門家によるレビューの代わりとして扱わないでください。
  • 必要な入力、権限、安全境界、または成功基準が不足している場合は、停止して説明を求めてください。
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Pipecat Friday Agent

Overview

This skill provides a blueprint for building F.R.I.D.A.Y. (Replacement Integrated Digital Assistant Youth), a local voice assistant inspired by the tactical AI from the Iron Man films. It uses the Pipecat framework to orchestrate a low-latency pipeline:

  • STT: OpenAI Whisper (whisper-1) or gpt-4o-transcribe
  • LLM: Google Gemini 2.5 Flash (via a compatibility shim)
  • TTS: OpenAI TTS (nova voice)
  • Transport: Local Audio (Hardware Mic/Speakers)

When to Use This Skill

  • Use when you want to build a real-time, conversational voice agent.
  • Use when working with the Pipecat framework for pipeline-based AI.
  • Use when you need to integrate multiple providers (Google and OpenAI) into a single voice loop.
  • Use when building Iron Man-themed or tactical-themed voice applications.

How It Works

Step 1: Install Dependencies

You will need the Pipecat framework and its service providers installed:

pip install pipecat-ai[openai,google,silero] python-dotenv

Step 2: Configure Environment

Create a .env file with your API keys:

OPENAI_API_KEY=your_openai_key
GOOGLE_API_KEY=your_google_key

Step 3: Run the Agent

Execute the provided Python script to start the interface:

python scripts/friday_agent.py

Core Concepts

Pipeline Architecture

The agent follows a linear pipeline: Mic -> VAD -> STT -> LLM -> TTS -> Speaker. This allows for granular control over each stage, unlike end-to-end speech-to-speech models.

Google Compatibility Shim

Since Google's Gemini API has a different message format than OpenAI's standard (which Pipecat aggregators expect), the script includes a GoogleSafeContext and GoogleSafeMessage class to bridge the gap.

Best Practices

  • Use Silero VAD: It is robust for local hardware and prevents background noise from triggering the LLM.
  • Concise Prompts: Tactical agents should give short, data-dense responses to minimize latency.
  • Sample Rate Match: OpenAI TTS outputs at 24kHz; ensure your audio_out_sample_rate matches to avoid high-pitched or slowed audio.
  • No Polite Fillers: Avoid "Hello, how can I help you today?" Instead, use "Systems nominal. Ready for commands."

Troubleshooting

  • Problem: Audio is choppy or delayed.
    • Solution: Check your OUTPUT_DEVICE index. Run a script like test_audio_output.py to find the correct hardware index for your OS.
  • Problem: "Validation error" for message format.
    • Solution: Ensure the GoogleSafeContext shim is correctly translating OpenAI-style dicts to Gemini-style schema.

Related Skills

  • @voice-agents - General principles of voice AI.
  • @agent-tool-builder - Add tools (Search, Lights, etc.) to your Friday agent.
  • @llm-architect - Optimizing the LLM layer.

Limitations

  • Use this skill only when the task clearly matches the scope described above.
  • Do not treat the output as a substitute for environment-specific validation, testing, or expert review.
  • Stop and ask for clarification if required inputs, permissions, safety boundaries, or success criteria are missing.

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。