jpskill.com
📦 その他 コミュニティ

dialogue-audio

複数の話者が登場する会話音声を、感情や話速、会話の流れを細かく調整しながら高品質に生成するSkill。

📜 元の英語説明(参考)

Multi-speaker dialogue audio creation with Dia TTS. Covers speaker tags, emotion control, pacing, conversation flow, and post-production. Use for: podcasts, audiobooks, explainers, character dialogue, conversational content. Triggers: dialogue audio, multi speaker, conversation audio, dia tts, two speakers, podcast audio, character voices, voice acting, dialogue generation, conversation tts, multi voice, speaker tags, dialogue recording

🇯🇵 日本人クリエイター向け解説

一言でいうと

複数の話者が登場する会話音声を、感情や話速、会話の流れを細かく調整しながら高品質に生成するSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o dialogue-audio.zip https://jpskill.com/download/6184.zip && unzip -o dialogue-audio.zip && rm dialogue-audio.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/6184.zip -OutFile "$d\dialogue-audio.zip"; Expand-Archive "$d\dialogue-audio.zip" -DestinationPath $d -Force; ri "$d\dialogue-audio.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して dialogue-audio.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → dialogue-audio フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

対話音声

inference.sh CLI を介して Dia TTS でリアルな複数話者対話を作成します。

クイックスタート

curl -fsSL https://cli.inference.sh | sh && infsh login

# 2人での会話
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] 新機能はもう試しましたか? [S2] まだですが、かなりの時間短縮になると聞きました。 [S1] 本当にそうなんです。ワークフローが半分になりました。 [S2] わかりました、今日中に絶対に試してみます。"
}'

話者タグ

Dia TTS は、2人の話者を区別するために [S1][S2] を使用します。

タグ 役割 音声
[S1] 話者1 自動的に割り当てられる音声A
[S2] 話者2 自動的に割り当てられる音声B

ルール:

  • 各話者の発言は常にタグで始めてください。
  • タグは大文字である必要があります: [s1] ではなく [S1]
  • 1回の生成につき最大2人の話者
  • 各話者はセッション内で一貫した音声を維持します

感情と表現の制御

Dia TTS は、感情的な表現のために句読点と非音声キューを解釈します。

句読点の効果

句読点 効果
. 中立的、断定的、中程度のポーズ "これは重要です。"
! 強調、興奮、エネルギー "これは素晴らしい!"
? 語尾上げ、質問 "本当にそう思いますか?"
... ためらい、途切れる、長いポーズ "うまくいくと思ったのですが...ダメでした。"
, 短い息継ぎのポーズ "まず、分析します。次に、行動します。"
または -- 中断または転換 "言おうとしたのですが—もういいです。"

非音声

Dia TTS は括弧内の音の説明をサポートしています。

(laughs)      — 笑い
(sighs)       — うんざりまたは安堵
(clears throat) — 注意を引くためのポーズ
(whispers)    — ささやき声
(gasps)       — 驚き

感情を伴う例

# 興奮した会話
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] 今日何があったか当ててみてください! [S2] 何?教えて! [S1] ユーザーが1万人を突破しました! [S2] (gasps) まさか!信じられない! [S1] そうなんです...まだ信じられません。"
}'

# 真剣な/思慮深い対話
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] タイムラインについて話し合う必要があります。 [S2] (sighs) わかっています。きついですね。 [S1] スコープから何か削れますか? [S2] たぶん...でも、アナリティクスダッシュボードを削除することになります。 [S1] それは難しいトレードオフですね。"
}'

# 教える/説明する
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] では、実際にはどのように機能するのですか? [S2] 良い質問です。パイプラインのように考えてください。データは一方の端から入り、途中で処理され、もう一方の端で変換されて出てきます。 [S1] 組み立てラインのようなものですか? [S2] その通りです!各ステップで何かが追加されます。"
}'

ペーシング制御

ポーズの階層

テクニック ポーズの長さ 用途
コンマ , 約0.3秒 節間、リスト項目
ピリオド . 約0.5秒 文間
省略記号 ... 約1.0秒 ドラマチックなポーズ、思考、ためらい
新しい話者タグ 約0.3秒 自然な会話の切り替わり

速度制御

  • 短い文 = 速く感じられるペース
  • コンマを含む長い文 = 落ち着いた、思慮深いペース
  • 質問とそれに続く回答 = 魅力的なやり取りのリズム
# 速いペース、エネルギッシュ
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] 準備はいいですか? [S2] いいです。 [S1] 行きましょう!3つの機能。5分。 [S2] やって! [S1] 機能1:リアルタイム同期。"
}'

# 遅い、瞑想的
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] これについてしばらく考えていました...そして、方向転換する必要があると思います。 [S2] どういう意味ですか? [S1] 市場が変化しました。昨年うまくいったことが...今はうまくいきません。"
}'

会話構造パターン

インタビュー形式

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] 番組へようこそ。今日はスペシャルゲストをお迎えしています。自己紹介をお願いします。 [S2] お招きいただきありがとうございます!私はプロダクトデザイナーで、約10年間クリエイター向けのツールを開発してきました。 [S1] デザインを始めたきっかけは何ですか? [S2] 正直に言うと?コーディングは苦手でしたが、物事を美しく見せるのが大好きでした。(laughs) だからデザインは自然な道でした。"
}'

チュートリアル / 解説

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] セットアッププロセスを説明していただけますか? [S2] もちろんです。ステップ1、CLIをインストールします。約30秒かかります。 [S1] それから? [S2] ステップ2、ログインコマンドを実行します。認証のためにブラウザが開きます。 [S1] 簡単そうですね。 [S2] その通りです!ステップ3、最初のアプリを実行する準備ができました。"
}'

討論 / 議論

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] オプションAで行くべきだと思います。実装が速いですから。 [S2] しかし、オプションBの方が長期的に見てスケーラビリティが高いです。 [S1] 確かに、でも今期中に何か出荷する必要があります。 [S2] 確かに...今Aをやって、Bへの移行パスを用意するのはどうでしょう? [S1] それはうまくいくかもしれません。プロトタイプを作りましょう。"
}'

ポストプロダクションのヒント

音量正規化

両方の話者の音量が一定である必要があります。どちらかが大きい場合:

# バランスの取れたオーディオとマージ
infsh app run infsh/video-audio-merger --input '{
  "video": "talking-head.mp4",
  "audio": "dialogue.mp3",
  "audio_volume": 1.0
}'

背景/音楽の追加

# 対話とBGMをマージ
infsh app run infsh/media-merger --input '{
  "media": ["dialogue.mp3", "background-music.mp3"]
}'

長い会話のセグメント化

約30秒を超える会話の場合は、セグメントに分けて生成します。

# セグメント1: 導入
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] また別のエピソードへようこそ..."
}'

# セグメント2: メインコンテンツ
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] では、今日のトピックに入りましょう..."
}'

# セグメント3: まとめ
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] 今日は素晴らしい会話でした..."
}'

# すべてのセグメントをマージ
infsh app run infsh/media-merger --input '{
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Dialogue Audio

Create realistic multi-speaker dialogue with Dia TTS via inference.sh CLI.

Quick Start

curl -fsSL https://cli.inference.sh | sh && infsh login

# Two-speaker conversation
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Have you tried the new feature yet? [S2] Not yet, but I heard it saves a ton of time. [S1] It really does. I cut my workflow in half. [S2] Okay, I am definitely trying it today."
}'

Speaker Tags

Dia TTS uses [S1] and [S2] to distinguish two speakers.

Tag Role Voice
[S1] Speaker 1 Automatically assigned voice A
[S2] Speaker 2 Automatically assigned voice B

Rules:

  • Always start each speaker turn with the tag
  • Tags must be uppercase: [S1] not [s1]
  • Maximum 2 speakers per generation
  • Each speaker maintains consistent voice within a session

Emotion & Expression Control

Dia TTS interprets punctuation and non-speech cues for emotional delivery.

Punctuation Effects

Punctuation Effect Example
. Neutral, declarative, medium pause "This is important."
! Emphasis, excitement, energy "This is amazing!"
? Rising intonation, questioning "Are you sure about that?"
... Hesitation, trailing off, long pause "I thought it would work... but it didn't."
, Short breath pause "First, we analyze. Then, we act."
or -- Interruption or pivot "I was going to say — never mind."

Non-Speech Sounds

Dia TTS supports parenthetical sound descriptions:

(laughs)      — laughter
(sighs)       — exasperation or relief
(clears throat) — attention-getting pause
(whispers)    — softer delivery
(gasps)       — surprise

Examples with Emotion

# Excited conversation
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Guess what happened today! [S2] What? Tell me! [S1] We hit ten thousand users! [S2] (gasps) No way! That is incredible! [S1] I know... I still cannot believe it."
}'

# Serious/thoughtful dialogue
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] We need to talk about the timeline. [S2] (sighs) I know. It is tight. [S1] Can we cut anything from the scope? [S2] Maybe... but it would mean dropping the analytics dashboard. [S1] That is a tough trade-off."
}'

# Teaching/explaining
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] So how does it actually work? [S2] Great question. Think of it like a pipeline. Data comes in on one end, gets processed in the middle, and comes out transformed on the other side. [S1] Like an assembly line? [S2] Exactly! Each step adds something."
}'

Pacing Control

Pause Hierarchy

Technique Pause Length Use For
Comma , ~0.3 seconds Between clauses, list items
Period . ~0.5 seconds Between sentences
Ellipsis ... ~1.0 seconds Dramatic pause, thinking, hesitation
New speaker tag ~0.3 seconds Natural turn-taking gap

Speed Control

  • Shorter sentences = faster perceived pace
  • Longer sentences with commas = measured, thoughtful pace
  • Questions followed by answers = engaging back-and-forth rhythm
# Fast-paced, energetic
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Ready? [S2] Ready. [S1] Let us go! Three features. Five minutes. [S2] Hit it! [S1] Feature one: real-time sync."
}'

# Slow, contemplative
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] I have been thinking about this for a while... and I think we need to change direction. [S2] What do you mean? [S1] The market has shifted. What worked last year... is not working now."
}'

Conversation Structure Patterns

Interview Format

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Welcome to the show. Today we have a special guest. Tell us about yourself. [S2] Thanks for having me! I am a product designer, and I have been building tools for creators for about ten years. [S1] What got you started in design? [S2] Honestly? I was terrible at coding but loved making things look good. (laughs) So design was the natural path."
}'

Tutorial / Explainer

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Can you walk me through the setup process? [S2] Sure. Step one, install the CLI. It takes about thirty seconds. [S1] And then? [S2] Step two, run the login command. It will open your browser for authentication. [S1] That sounds simple. [S2] It is! Step three, you are ready to run your first app."
}'

Debate / Discussion

infsh app run falai/dia-tts --input '{
  "prompt": "[S1] I think we should go with option A. It is faster to implement. [S2] But option B scales better long-term. [S1] Sure, but we need something shipping this quarter. [S2] Fair point... what if we do A now with a migration path to B? [S1] That could work. Let us prototype it."
}'

Post-Production Tips

Volume Normalization

Both speakers should be at consistent volume. If one is louder:

# Merge with balanced audio
infsh app run infsh/video-audio-merger --input '{
  "video": "talking-head.mp4",
  "audio": "dialogue.mp3",
  "audio_volume": 1.0
}'

Adding Background/Music

# Merge dialogue with background music
infsh app run infsh/media-merger --input '{
  "media": ["dialogue.mp3", "background-music.mp3"]
}'

Segmenting Long Conversations

For conversations longer than ~30 seconds, generate in segments:

# Segment 1: Introduction
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Welcome back to another episode..."
}'

# Segment 2: Main content
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] So let us dive into today s topic..."
}'

# Segment 3: Wrap-up
infsh app run falai/dia-tts --input '{
  "prompt": "[S1] Great conversation today..."
}'

# Merge all segments
infsh app run infsh/media-merger --input '{
  "media": ["segment1.mp3", "segment2.mp3", "segment3.mp3"]
}'

Script Writing Tips

Do Don't
Write how people talk Write how people write
Short sentences (< 15 words) Long academic sentences
Contractions ("can't", "won't") Formal ("cannot", "will not")
Natural fillers ("So,", "Well,") Every sentence perfectly formed
Vary sentence length All sentences same length
Include reactions ("Exactly!", "Hmm.") One-sided monologues
Read it aloud before generating Assume it sounds right

Common Mistakes

Mistake Problem Fix
Monologues longer than 3 sentences Sounds like a lecture, not conversation Break into exchanges
No emotional variation Flat, robotic delivery Use punctuation and non-speech cues
Missing speaker tags Voices don't alternate Start every turn with [S1] or [S2]
Formal written language Sounds unnatural spoken Use contractions, short sentences
No pauses between topics Feels rushed Use ... or scene breaks
All same energy level Monotonous Vary between high/low energy moments

Related Skills

npx skills add inferencesh/skills@text-to-speech
npx skills add inferencesh/skills@ai-podcast-creation
npx skills add inferencesh/skills@ai-avatar-video

Browse all apps: infsh app list