💬 コミュニケーションコミュニティ 🔴 エンジニア向け 👤 エンジニア・AI開発者

⚙️ TensorRT-LLM(NVIDIA最適化推論)

tensorrt-llm

NVIDIA A100/H100でLLM推論を10〜100倍速にする本番配信向け最適化Skill。

⚡ ⏱ クレーム返信ドラフト 15分 → 2分

📺 まず動画で見る(YouTube)

※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。

📜 元の英語説明(参考)

Optimizes LLM inference with NVIDIA TensorRT for maximum throughput and lowest latency. Use for production deployment on NVIDIA GPUs (A100/H100), when you need 10-100x faster inference than PyTorch, or for serving models with quantization (FP8/INT4), in-flight batching, and multi-GPU scaling.

🇯🇵 日本人クリエイター向け解説

一言でいうと

NVIDIA A100/H100でLLM推論を10〜100倍速にする本番配信向け最適化Skill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux

mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o tensorrt-llm.zip https://jpskill.com/download/86.zip && unzip -o tensorrt-llm.zip && rm tensorrt-llm.zip

🪟 Windows (PowerShell)

$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/86.zip -OutFile "$d\tensorrt-llm.zip"; Expand-Archive "$d\tensorrt-llm.zip" -DestinationPath $d -Force; ri "$d\tensorrt-llm.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)

1. 下の青いボタンを押して tensorrt-llm.zip をダウンロード
2. ZIPファイルをダブルクリックで解凍 → tensorrt-llm フォルダができる
3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
4. Claude Code を再起動

⬇ .zip でダウンロード(推奨) ⬇ .skill 形式(上級者用) 元のソース ↗

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
- · macOS / Linux: ~/.claude/skills/
- · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →

最終更新: 2026-05-17
取得日時: 2026-05-17
同梱ファイル: 4

💬 こう話しかけるだけ — サンプルプロンプト

› TensorRT-LLM(NVIDIA最適化推論) を使って、最小構成のサンプルコードを示して
› TensorRT-LLM(NVIDIA最適化推論) の主な使い方と注意点を教えて
› TensorRT-LLM(NVIDIA最適化推論) を既存プロジェクトに組み込む方法を教えて

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

TensorRT-LLM

NVIDIA GPU上で最先端のパフォーマンスでLLM推論を最適化するためのNVIDIAのオープンソースライブラリです。

TensorRT-LLMを使用するタイミング

TensorRT-LLMは以下の状況で使用してください。

NVIDIA GPU (A100, H100, GB200) にデプロイする場合
最大スループット (Llama 3で24,000+トークン/秒) が必要な場合
リアルタイムアプリケーションで低レイテンシが必要な場合
量子化モデル (FP8, INT4, FP4) を扱う場合
複数のGPUまたはノードにスケールする場合

代わりにvLLMは以下の状況で使用してください。

よりシンプルなセットアップとPythonファーストのAPIが必要な場合
TensorRTコンパイルなしでPagedAttentionを使用したい場合
AMD GPUまたは非NVIDIAハードウェアを扱う場合

代わりにllama.cppは以下の状況で使用してください。

CPUまたはApple Siliconにデプロイする場合
NVIDIA GPUなしでエッジデプロイが必要な場合
よりシンプルなGGUF量子化フォーマットを使用したい場合

クイックスタート

インストール

# Docker (推奨)
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12が必要です

基本的な推論

from tensorrt_llm import LLM, SamplingParams

# モデルを初期化
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# サンプリングを設定
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# 生成
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

trtllm-serveによる提供

# サーバーを起動 (モデルの自動ダウンロードとコンパイル)
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # テンソル並列処理 (4 GPU)
    --max_batch_size 256 \
    --max_num_tokens 4096

# クライアントリクエスト
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

主要機能

パフォーマンス最適化

インフライトバッチ処理: 生成中の動的バッチ処理
ページングされたKVキャッシュ: 効率的なメモリ管理
Flash Attention: 最適化されたアテンションカーネル
量子化: FP8, INT4, FP4による2〜4倍高速な推論
CUDAグラフ: カーネル起動オーバーヘッドの削減

並列処理

テンソル並列処理 (TP): モデルを複数のGPUに分割
パイプライン並列処理 (PP): レイヤーごとの分散
エキスパート並列処理: Mixture-of-Expertsモデル向け
マルチノード: 単一マシンを超えてスケール

高度な機能

投機的デコーディング: ドラフトモデルによる高速な生成
LoRAサービング: 効率的なマルチアダプターデプロイ
分離型サービング: プリフィルと生成の分離

一般的なパターン

量子化モデル (FP8)

from tensorrt_llm import LLM

# FP8量子化モデルをロード (2倍高速、メモリ50%削減)
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# 推論は以前と同じ
outputs = llm.generate(["Summarize this article..."])

マルチGPUデプロイ

# 8つのGPUにわたるテンソル並列処理
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

バッチ推論

# 100個のプロンプトを効率的に処理
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# 最大スループットのための自動インフライトバッチ処理

パフォーマンスベンチマーク

Meta Llama 3-8B (H100 GPU):

スループット: 24,000トークン/秒
レイテンシ: トークンあたり約10ms
PyTorchとの比較: 100倍高速

Llama 3-70B (8× A100 80GB):

FP8量子化: FP16より2倍高速
メモリ: FP8で50%削減

サポートされているモデル

LLaMAファミリー: Llama 2, Llama 3, CodeLlama
GPTファミリー: GPT-2, GPT-J, GPT-NeoX
Qwen: Qwen, Qwen2, QwQ
DeepSeek: DeepSeek-V2, DeepSeek-V3
Mixtral: Mixtral-8x7B, Mixtral-8x22B
Vision: LLaVA, Phi-3-vision
HuggingFace上の100以上のモデル

参考文献

最適化ガイド - 量子化、バッチ処理、KVキャッシュチューニング
マルチGPUセットアップ - テンソル/パイプライン並列処理、マルチノード
サービングガイド - プロダクションデプロイ、モニタリング、オートスケーリング

リソース

ドキュメント: https://nvidia.github.io/TensorRT-LLM/
GitHub: https://github.com/NVIDIA/TensorRT-LLM
モデル: https://huggingface.co/models?library=tensorrt_llm

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

TensorRT-LLM

NVIDIA's open-source library for optimizing LLM inference with state-of-the-art performance on NVIDIA GPUs.

When to use TensorRT-LLM

Use TensorRT-LLM when:

Deploying on NVIDIA GPUs (A100, H100, GB200)
Need maximum throughput (24,000+ tokens/sec on Llama 3)
Require low latency for real-time applications
Working with quantized models (FP8, INT4, FP4)
Scaling across multiple GPUs or nodes

Use vLLM instead when:

Need simpler setup and Python-first API
Want PagedAttention without TensorRT compilation
Working with AMD GPUs or non-NVIDIA hardware

Use llama.cpp instead when:

Deploying on CPU or Apple Silicon
Need edge deployment without NVIDIA GPUs
Want simpler GGUF quantization format

Quick start

Installation

# Docker (recommended)
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# Requires CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12

Basic inference

from tensorrt_llm import LLM, SamplingParams

# Initialize model
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# Configure sampling
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# Generate
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

Serving with trtllm-serve

# Start server (automatic model download and compilation)
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # Tensor parallelism (4 GPUs)
    --max_batch_size 256 \
    --max_num_tokens 4096

# Client request
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

Key features

Performance optimizations

In-flight batching: Dynamic batching during generation
Paged KV cache: Efficient memory management
Flash Attention: Optimized attention kernels
Quantization: FP8, INT4, FP4 for 2-4× faster inference
CUDA graphs: Reduced kernel launch overhead

Parallelism

Tensor parallelism (TP): Split model across GPUs
Pipeline parallelism (PP): Layer-wise distribution
Expert parallelism: For Mixture-of-Experts models
Multi-node: Scale beyond single machine

Advanced features

Speculative decoding: Faster generation with draft models
LoRA serving: Efficient multi-adapter deployment
Disaggregated serving: Separate prefill and generation

Common patterns

Quantized model (FP8)

from tensorrt_llm import LLM

# Load FP8 quantized model (2× faster, 50% memory)
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# Inference same as before
outputs = llm.generate(["Summarize this article..."])

Multi-GPU deployment

# Tensor parallelism across 8 GPUs
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

Batch inference

# Process 100 prompts efficiently
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# Automatic in-flight batching for maximum throughput

Performance benchmarks

Meta Llama 3-8B (H100 GPU):

Throughput: 24,000 tokens/sec
Latency: ~10ms per token
vs PyTorch: 100× faster

Llama 3-70B (8× A100 80GB):

FP8 quantization: 2× faster than FP16
Memory: 50% reduction with FP8

Supported models

LLaMA family: Llama 2, Llama 3, CodeLlama
GPT family: GPT-2, GPT-J, GPT-NeoX
Qwen: Qwen, Qwen2, QwQ
DeepSeek: DeepSeek-V2, DeepSeek-V3
Mixtral: Mixtral-8x7B, Mixtral-8x22B
Vision: LLaVA, Phi-3-vision
100+ models on HuggingFace

References

Optimization Guide - Quantization, batching, KV cache tuning
Multi-GPU Setup - Tensor/pipeline parallelism, multi-node
Serving Guide - Production deployment, monitoring, autoscaling

Resources

Docs: https://nvidia.github.io/TensorRT-LLM/
GitHub: https://github.com/NVIDIA/TensorRT-LLM
Models: https://huggingface.co/models?library=tensorrt_llm

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。

📄 SKILL.md (5,039 bytes)
📎 references/multi-gpu.md (6,699 bytes)
📎 references/optimization.md (5,613 bytes)
📎 references/serving.md (9,798 bytes)