text-to-speech
Convert text to natural speech with DIA TTS, Kokoro, Chatterbox, and more via inference.sh CLI. Models: DIA TTS (conversational), Kokoro TTS, Chatterbox, Higgs Audio, VibeVoice (podcasts). Capabilities: text-to-speech, voice cloning, multi-speaker dialogue, podcast generation, expressive speech. Use for: voiceovers, audiobooks, podcasts, accessibility, video narration, IVR, voice assistants. Triggers: text to speech, tts, voice generation, ai voice, speech synthesis, voice over, generate speech, ai narrator, voice cloning, text to audio, elevenlabs alternative, voice ai, ai voiceover, speech generator, natural voice
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-17
- 同梱ファイル
- 1
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
テキスト読み上げ

inference.sh CLI を介して、テキストを自然な音声に変換します。
クイックスタート
# CLI をインストール
curl -fsSL https://cli.inference.sh | sh && infsh login
# 音声を生成
infsh app run infsh/kokoro-tts --input '{"text": "Hello, welcome to our product demo."}'
利用可能なモデル
| モデル | アプリ ID | 最適な用途 |
|---|---|---|
| DIA TTS | infsh/dia-tts |
会話的、表現豊か |
| Kokoro TTS | infsh/kokoro-tts |
高速、自然 |
| Chatterbox | infsh/chatterbox |
汎用 |
| Higgs Audio | infsh/higgs-audio |
感情制御 |
| VibeVoice | infsh/vibevoice |
ポッドキャスト、長文 |
すべてのオーディオアプリを閲覧
infsh app list --category audio
例
基本的なテキスト読み上げ
infsh app run infsh/kokoro-tts --input '{"text": "Welcome to our tutorial."}'
DIA を使用した会話型 TTS
infsh app sample infsh/dia-tts --save input.json
# input.json を編集:
# {
# "text": "Hey! How are you doing today? I'm really excited to share this with you.",
# "voice": "conversational"
# }
infsh app run infsh/dia-tts --input input.json
長文オーディオ(ポッドキャスト)
infsh app sample infsh/vibevoice --save input.json
# ポッドキャストスクリプトで input.json を編集
infsh app run infsh/vibevoice --input input.json
Higgs を使用した表現豊かな音声
infsh app sample infsh/higgs-audio --save input.json
# {
# "text": "This is absolutely incredible!",
# "emotion": "excited"
# }
infsh app run infsh/higgs-audio --input input.json
ユースケース
- ナレーション: 製品デモ、説明ビデオ
- オーディオブック: テキストを音声に変換
- ポッドキャスト: ポッドキャストエピソードを生成
- アクセシビリティ: コンテンツをアクセス可能にする
- IVR: 電話システムの音声プロンプト
- ビデオナレーション: ビデオにナレーションを追加
ビデオとの組み合わせ
音声を生成し、次にトーキングヘッドビデオを作成します。
# 1. 音声を生成
infsh app run infsh/kokoro-tts --input '{"text": "Your script here"}' > speech.json
# 2. OmniHuman でアバタービデオにオーディオ URL を使用
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "<audio-url-from-step-1>"
}'
関連スキル
# フルプラットフォームスキル(全 150 以上のアプリ)
npx skills add inferencesh/skills@inference-sh
# AI アバター(TTS とトーキングヘッドを組み合わせる)
npx skills add inferencesh/skills@ai-avatar-video
# AI 音楽生成
npx skills add inferencesh/skills@ai-music-generation
# 音声認識(文字起こし)
npx skills add inferencesh/skills@speech-to-text
# ビデオ生成
npx skills add inferencesh/skills@ai-video-generation
すべてのアプリを閲覧: infsh app list
ドキュメント
- アプリの実行 - CLI を介してアプリを実行する方法
- オーディオ文字起こし例 - オーディオ処理ワークフロー
- アプリの概要 - アプリのエコシステムを理解する
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
Text-to-Speech

Convert text to natural speech via inference.sh CLI.
Quick Start
# Install CLI
curl -fsSL https://cli.inference.sh | sh && infsh login
# Generate speech
infsh app run infsh/kokoro-tts --input '{"text": "Hello, welcome to our product demo."}'
Available Models
| Model | App ID | Best For |
|---|---|---|
| DIA TTS | infsh/dia-tts |
Conversational, expressive |
| Kokoro TTS | infsh/kokoro-tts |
Fast, natural |
| Chatterbox | infsh/chatterbox |
General purpose |
| Higgs Audio | infsh/higgs-audio |
Emotional control |
| VibeVoice | infsh/vibevoice |
Podcasts, long-form |
Browse All Audio Apps
infsh app list --category audio
Examples
Basic Text-to-Speech
infsh app run infsh/kokoro-tts --input '{"text": "Welcome to our tutorial."}'
Conversational TTS with DIA
infsh app sample infsh/dia-tts --save input.json
# Edit input.json:
# {
# "text": "Hey! How are you doing today? I'm really excited to share this with you.",
# "voice": "conversational"
# }
infsh app run infsh/dia-tts --input input.json
Long-form Audio (Podcasts)
infsh app sample infsh/vibevoice --save input.json
# Edit input.json with your podcast script
infsh app run infsh/vibevoice --input input.json
Expressive Speech with Higgs
infsh app sample infsh/higgs-audio --save input.json
# {
# "text": "This is absolutely incredible!",
# "emotion": "excited"
# }
infsh app run infsh/higgs-audio --input input.json
Use Cases
- Voiceovers: Product demos, explainer videos
- Audiobooks: Convert text to spoken word
- Podcasts: Generate podcast episodes
- Accessibility: Make content accessible
- IVR: Phone system voice prompts
- Video Narration: Add narration to videos
Combine with Video
Generate speech, then create a talking head video:
# 1. Generate speech
infsh app run infsh/kokoro-tts --input '{"text": "Your script here"}' > speech.json
# 2. Use the audio URL with OmniHuman for avatar video
infsh app run bytedance/omnihuman-1-5 --input '{
"image_url": "https://portrait.jpg",
"audio_url": "<audio-url-from-step-1>"
}'
Related Skills
# Full platform skill (all 150+ apps)
npx skills add inferencesh/skills@inference-sh
# AI avatars (combine TTS with talking heads)
npx skills add inferencesh/skills@ai-avatar-video
# AI music generation
npx skills add inferencesh/skills@ai-music-generation
# Speech-to-text (transcription)
npx skills add inferencesh/skills@speech-to-text
# Video generation
npx skills add inferencesh/skills@ai-video-generation
Browse all apps: infsh app list
Documentation
- Running Apps - How to run apps via CLI
- Audio Transcription Example - Audio processing workflows
- Apps Overview - Understanding the app ecosystem