⚙️ TensorRT-LLM(NVIDIA最適化推論)
NVIDIA A100/H100でLLM推論を10〜100倍速にする本番配信向け最適化Skill。
📺 まず動画で見る(YouTube)
▶ 【最新版】Claude(クロード)完全解説!20以上の便利機能をこの動画1本で全て解説 ↗
※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。
📜 元の英語説明(参考)
Optimizes LLM inference with NVIDIA TensorRT for maximum throughput and lowest latency. Use for production deployment on NVIDIA GPUs (A100/H100), when you need 10-100x faster inference than PyTorch, or for serving models with quantization (FP8/INT4), in-flight batching, and multi-GPU scaling.
🇯🇵 日本人クリエイター向け解説
NVIDIA A100/H100でLLM推論を10〜100倍速にする本番配信向け最適化Skill。
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o tensorrt-llm.zip https://jpskill.com/download/86.zip && unzip -o tensorrt-llm.zip && rm tensorrt-llm.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/86.zip -OutFile "$d\tensorrt-llm.zip"; Expand-Archive "$d\tensorrt-llm.zip" -DestinationPath $d -Force; ri "$d\tensorrt-llm.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
tensorrt-llm.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
tensorrt-llmフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-17
- 同梱ファイル
- 4
💬 こう話しかけるだけ — サンプルプロンプト
- › TensorRT-LLM(NVIDIA最適化推論) を使って、最小構成のサンプルコードを示して
- › TensorRT-LLM(NVIDIA最適化推論) の主な使い方と注意点を教えて
- › TensorRT-LLM(NVIDIA最適化推論) を既存プロジェクトに組み込む方法を教えて
これをClaude Code に貼るだけで、このSkillが自動発動します。
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
TensorRT-LLM
NVIDIA GPU上で最先端のパフォーマンスでLLM推論を最適化するためのNVIDIAのオープンソースライブラリです。
TensorRT-LLMを使用するタイミング
TensorRT-LLMは以下の状況で使用してください。
- NVIDIA GPU (A100, H100, GB200) にデプロイする場合
- 最大スループット (Llama 3で24,000+トークン/秒) が必要な場合
- リアルタイムアプリケーションで低レイテンシが必要な場合
- 量子化モデル (FP8, INT4, FP4) を扱う場合
- 複数のGPUまたはノードにスケールする場合
代わりにvLLMは以下の状況で使用してください。
- よりシンプルなセットアップとPythonファーストのAPIが必要な場合
- TensorRTコンパイルなしでPagedAttentionを使用したい場合
- AMD GPUまたは非NVIDIAハードウェアを扱う場合
代わりにllama.cppは以下の状況で使用してください。
- CPUまたはApple Siliconにデプロイする場合
- NVIDIA GPUなしでエッジデプロイが必要な場合
- よりシンプルなGGUF量子化フォーマットを使用したい場合
クイックスタート
インストール
# Docker (推奨)
docker pull nvidia/tensorrt_llm:latest
# pip install
pip install tensorrt_llm==1.2.0rc3
# CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12が必要です
基本的な推論
from tensorrt_llm import LLM, SamplingParams
# モデルを初期化
llm = LLM(model="meta-llama/Meta-Llama-3-8B")
# サンプリングを設定
sampling_params = SamplingParams(
max_tokens=100,
temperature=0.7,
top_p=0.9
)
# 生成
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(output.text)
trtllm-serveによる提供
# サーバーを起動 (モデルの自動ダウンロードとコンパイル)
trtllm-serve meta-llama/Meta-Llama-3-8B \
--tp_size 4 \ # テンソル並列処理 (4 GPU)
--max_batch_size 256 \
--max_num_tokens 4096
# クライアントリクエスト
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Meta-Llama-3-8B",
"messages": [{"role": "user", "content": "Hello!"}],
"temperature": 0.7,
"max_tokens": 100
}'
主要機能
パフォーマンス最適化
- インフライトバッチ処理: 生成中の動的バッチ処理
- ページングされたKVキャッシュ: 効率的なメモリ管理
- Flash Attention: 最適化されたアテンションカーネル
- 量子化: FP8, INT4, FP4による2〜4倍高速な推論
- CUDAグラフ: カーネル起動オーバーヘッドの削減
並列処理
- テンソル並列処理 (TP): モデルを複数のGPUに分割
- パイプライン並列処理 (PP): レイヤーごとの分散
- エキスパート並列処理: Mixture-of-Expertsモデル向け
- マルチノード: 単一マシンを超えてスケール
高度な機能
- 投機的デコーディング: ドラフトモデルによる高速な生成
- LoRAサービング: 効率的なマルチアダプターデプロイ
- 分離型サービング: プリフィルと生成の分離
一般的なパターン
量子化モデル (FP8)
from tensorrt_llm import LLM
# FP8量子化モデルをロード (2倍高速、メモリ50%削減)
llm = LLM(
model="meta-llama/Meta-Llama-3-70B",
dtype="fp8",
max_num_tokens=8192
)
# 推論は以前と同じ
outputs = llm.generate(["Summarize this article..."])
マルチGPUデプロイ
# 8つのGPUにわたるテンソル並列処理
llm = LLM(
model="meta-llama/Meta-Llama-3-405B",
tensor_parallel_size=8,
dtype="fp8"
)
バッチ推論
# 100個のプロンプトを効率的に処理
prompts = [f"Question {i}: ..." for i in range(100)]
outputs = llm.generate(
prompts,
sampling_params=SamplingParams(max_tokens=200)
)
# 最大スループットのための自動インフライトバッチ処理
パフォーマンスベンチマーク
Meta Llama 3-8B (H100 GPU):
- スループット: 24,000トークン/秒
- レイテンシ: トークンあたり約10ms
- PyTorchとの比較: 100倍高速
Llama 3-70B (8× A100 80GB):
- FP8量子化: FP16より2倍高速
- メモリ: FP8で50%削減
サポートされているモデル
- LLaMAファミリー: Llama 2, Llama 3, CodeLlama
- GPTファミリー: GPT-2, GPT-J, GPT-NeoX
- Qwen: Qwen, Qwen2, QwQ
- DeepSeek: DeepSeek-V2, DeepSeek-V3
- Mixtral: Mixtral-8x7B, Mixtral-8x22B
- Vision: LLaVA, Phi-3-vision
- HuggingFace上の100以上のモデル
参考文献
- 最適化ガイド - 量子化、バッチ処理、KVキャッシュチューニング
- マルチGPUセットアップ - テンソル/パイプライン並列処理、マルチノード
- サービングガイド - プロダクションデプロイ、モニタリング、オートスケーリング
リソース
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
TensorRT-LLM
NVIDIA's open-source library for optimizing LLM inference with state-of-the-art performance on NVIDIA GPUs.
When to use TensorRT-LLM
Use TensorRT-LLM when:
- Deploying on NVIDIA GPUs (A100, H100, GB200)
- Need maximum throughput (24,000+ tokens/sec on Llama 3)
- Require low latency for real-time applications
- Working with quantized models (FP8, INT4, FP4)
- Scaling across multiple GPUs or nodes
Use vLLM instead when:
- Need simpler setup and Python-first API
- Want PagedAttention without TensorRT compilation
- Working with AMD GPUs or non-NVIDIA hardware
Use llama.cpp instead when:
- Deploying on CPU or Apple Silicon
- Need edge deployment without NVIDIA GPUs
- Want simpler GGUF quantization format
Quick start
Installation
# Docker (recommended)
docker pull nvidia/tensorrt_llm:latest
# pip install
pip install tensorrt_llm==1.2.0rc3
# Requires CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12
Basic inference
from tensorrt_llm import LLM, SamplingParams
# Initialize model
llm = LLM(model="meta-llama/Meta-Llama-3-8B")
# Configure sampling
sampling_params = SamplingParams(
max_tokens=100,
temperature=0.7,
top_p=0.9
)
# Generate
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(output.text)
Serving with trtllm-serve
# Start server (automatic model download and compilation)
trtllm-serve meta-llama/Meta-Llama-3-8B \
--tp_size 4 \ # Tensor parallelism (4 GPUs)
--max_batch_size 256 \
--max_num_tokens 4096
# Client request
curl -X POST http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "meta-llama/Meta-Llama-3-8B",
"messages": [{"role": "user", "content": "Hello!"}],
"temperature": 0.7,
"max_tokens": 100
}'
Key features
Performance optimizations
- In-flight batching: Dynamic batching during generation
- Paged KV cache: Efficient memory management
- Flash Attention: Optimized attention kernels
- Quantization: FP8, INT4, FP4 for 2-4× faster inference
- CUDA graphs: Reduced kernel launch overhead
Parallelism
- Tensor parallelism (TP): Split model across GPUs
- Pipeline parallelism (PP): Layer-wise distribution
- Expert parallelism: For Mixture-of-Experts models
- Multi-node: Scale beyond single machine
Advanced features
- Speculative decoding: Faster generation with draft models
- LoRA serving: Efficient multi-adapter deployment
- Disaggregated serving: Separate prefill and generation
Common patterns
Quantized model (FP8)
from tensorrt_llm import LLM
# Load FP8 quantized model (2× faster, 50% memory)
llm = LLM(
model="meta-llama/Meta-Llama-3-70B",
dtype="fp8",
max_num_tokens=8192
)
# Inference same as before
outputs = llm.generate(["Summarize this article..."])
Multi-GPU deployment
# Tensor parallelism across 8 GPUs
llm = LLM(
model="meta-llama/Meta-Llama-3-405B",
tensor_parallel_size=8,
dtype="fp8"
)
Batch inference
# Process 100 prompts efficiently
prompts = [f"Question {i}: ..." for i in range(100)]
outputs = llm.generate(
prompts,
sampling_params=SamplingParams(max_tokens=200)
)
# Automatic in-flight batching for maximum throughput
Performance benchmarks
Meta Llama 3-8B (H100 GPU):
- Throughput: 24,000 tokens/sec
- Latency: ~10ms per token
- vs PyTorch: 100× faster
Llama 3-70B (8× A100 80GB):
- FP8 quantization: 2× faster than FP16
- Memory: 50% reduction with FP8
Supported models
- LLaMA family: Llama 2, Llama 3, CodeLlama
- GPT family: GPT-2, GPT-J, GPT-NeoX
- Qwen: Qwen, Qwen2, QwQ
- DeepSeek: DeepSeek-V2, DeepSeek-V3
- Mixtral: Mixtral-8x7B, Mixtral-8x22B
- Vision: LLaVA, Phi-3-vision
- 100+ models on HuggingFace
References
- Optimization Guide - Quantization, batching, KV cache tuning
- Multi-GPU Setup - Tensor/pipeline parallelism, multi-node
- Serving Guide - Production deployment, monitoring, autoscaling
Resources
同梱ファイル
※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。
- 📄 SKILL.md (5,039 bytes)
- 📎 references/multi-gpu.md (6,699 bytes)
- 📎 references/optimization.md (5,613 bytes)
- 📎 references/serving.md (9,798 bytes)