jpskill.com
💬 コミュニケーション コミュニティ 🔴 エンジニア向け 👤 エンジニア・AI開発者

⚙️ TensorRT-LLM(NVIDIA最適化推論)

tensorrt-llm

NVIDIA A100/H100でLLM推論を10〜100倍速にする本番配信向け最適化Skill。

⏱ クレーム返信ドラフト 15分 → 2分

📺 まず動画で見る(YouTube)

▶ 【最新版】Claude(クロード)完全解説!20以上の便利機能をこの動画1本で全て解説 ↗

※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。

📜 元の英語説明(参考)

Optimizes LLM inference with NVIDIA TensorRT for maximum throughput and lowest latency. Use for production deployment on NVIDIA GPUs (A100/H100), when you need 10-100x faster inference than PyTorch, or for serving models with quantization (FP8/INT4), in-flight batching, and multi-GPU scaling.

🇯🇵 日本人クリエイター向け解説

一言でいうと

NVIDIA A100/H100でLLM推論を10〜100倍速にする本番配信向け最適化Skill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o tensorrt-llm.zip https://jpskill.com/download/86.zip && unzip -o tensorrt-llm.zip && rm tensorrt-llm.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/86.zip -OutFile "$d\tensorrt-llm.zip"; Expand-Archive "$d\tensorrt-llm.zip" -DestinationPath $d -Force; ri "$d\tensorrt-llm.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して tensorrt-llm.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → tensorrt-llm フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-17
同梱ファイル
4

💬 こう話しかけるだけ — サンプルプロンプト

  • TensorRT-LLM(NVIDIA最適化推論) を使って、最小構成のサンプルコードを示して
  • TensorRT-LLM(NVIDIA最適化推論) の主な使い方と注意点を教えて
  • TensorRT-LLM(NVIDIA最適化推論) を既存プロジェクトに組み込む方法を教えて

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

TensorRT-LLM

NVIDIA GPU上で最先端のパフォーマンスでLLM推論を最適化するためのNVIDIAのオープンソースライブラリです。

TensorRT-LLMを使用するタイミング

TensorRT-LLMは以下の状況で使用してください。

  • NVIDIA GPU (A100, H100, GB200) にデプロイする場合
  • 最大スループット (Llama 3で24,000+トークン/秒) が必要な場合
  • リアルタイムアプリケーションで低レイテンシが必要な場合
  • 量子化モデル (FP8, INT4, FP4) を扱う場合
  • 複数のGPUまたはノードにスケールする場合

代わりにvLLMは以下の状況で使用してください。

  • よりシンプルなセットアップとPythonファーストのAPIが必要な場合
  • TensorRTコンパイルなしでPagedAttentionを使用したい場合
  • AMD GPUまたは非NVIDIAハードウェアを扱う場合

代わりにllama.cppは以下の状況で使用してください。

  • CPUまたはApple Siliconにデプロイする場合
  • NVIDIA GPUなしでエッジデプロイが必要な場合
  • よりシンプルなGGUF量子化フォーマットを使用したい場合

クイックスタート

インストール

# Docker (推奨)
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12が必要です

基本的な推論

from tensorrt_llm import LLM, SamplingParams

# モデルを初期化
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# サンプリングを設定
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# 生成
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

trtllm-serveによる提供

# サーバーを起動 (モデルの自動ダウンロードとコンパイル)
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # テンソル並列処理 (4 GPU)
    --max_batch_size 256 \
    --max_num_tokens 4096

# クライアントリクエスト
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

主要機能

パフォーマンス最適化

  • インフライトバッチ処理: 生成中の動的バッチ処理
  • ページングされたKVキャッシュ: 効率的なメモリ管理
  • Flash Attention: 最適化されたアテンションカーネル
  • 量子化: FP8, INT4, FP4による2〜4倍高速な推論
  • CUDAグラフ: カーネル起動オーバーヘッドの削減

並列処理

  • テンソル並列処理 (TP): モデルを複数のGPUに分割
  • パイプライン並列処理 (PP): レイヤーごとの分散
  • エキスパート並列処理: Mixture-of-Expertsモデル向け
  • マルチノード: 単一マシンを超えてスケール

高度な機能

  • 投機的デコーディング: ドラフトモデルによる高速な生成
  • LoRAサービング: 効率的なマルチアダプターデプロイ
  • 分離型サービング: プリフィルと生成の分離

一般的なパターン

量子化モデル (FP8)

from tensorrt_llm import LLM

# FP8量子化モデルをロード (2倍高速、メモリ50%削減)
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# 推論は以前と同じ
outputs = llm.generate(["Summarize this article..."])

マルチGPUデプロイ

# 8つのGPUにわたるテンソル並列処理
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

バッチ推論

# 100個のプロンプトを効率的に処理
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# 最大スループットのための自動インフライトバッチ処理

パフォーマンスベンチマーク

Meta Llama 3-8B (H100 GPU):

  • スループット: 24,000トークン/秒
  • レイテンシ: トークンあたり約10ms
  • PyTorchとの比較: 100倍高速

Llama 3-70B (8× A100 80GB):

  • FP8量子化: FP16より2倍高速
  • メモリ: FP8で50%削減

サポートされているモデル

  • LLaMAファミリー: Llama 2, Llama 3, CodeLlama
  • GPTファミリー: GPT-2, GPT-J, GPT-NeoX
  • Qwen: Qwen, Qwen2, QwQ
  • DeepSeek: DeepSeek-V2, DeepSeek-V3
  • Mixtral: Mixtral-8x7B, Mixtral-8x22B
  • Vision: LLaVA, Phi-3-vision
  • HuggingFace上の100以上のモデル

参考文献

リソース

📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

TensorRT-LLM

NVIDIA's open-source library for optimizing LLM inference with state-of-the-art performance on NVIDIA GPUs.

When to use TensorRT-LLM

Use TensorRT-LLM when:

  • Deploying on NVIDIA GPUs (A100, H100, GB200)
  • Need maximum throughput (24,000+ tokens/sec on Llama 3)
  • Require low latency for real-time applications
  • Working with quantized models (FP8, INT4, FP4)
  • Scaling across multiple GPUs or nodes

Use vLLM instead when:

  • Need simpler setup and Python-first API
  • Want PagedAttention without TensorRT compilation
  • Working with AMD GPUs or non-NVIDIA hardware

Use llama.cpp instead when:

  • Deploying on CPU or Apple Silicon
  • Need edge deployment without NVIDIA GPUs
  • Want simpler GGUF quantization format

Quick start

Installation

# Docker (recommended)
docker pull nvidia/tensorrt_llm:latest

# pip install
pip install tensorrt_llm==1.2.0rc3

# Requires CUDA 13.0.0, TensorRT 10.13.2, Python 3.10-3.12

Basic inference

from tensorrt_llm import LLM, SamplingParams

# Initialize model
llm = LLM(model="meta-llama/Meta-Llama-3-8B")

# Configure sampling
sampling_params = SamplingParams(
    max_tokens=100,
    temperature=0.7,
    top_p=0.9
)

# Generate
prompts = ["Explain quantum computing"]
outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    print(output.text)

Serving with trtllm-serve

# Start server (automatic model download and compilation)
trtllm-serve meta-llama/Meta-Llama-3-8B \
    --tp_size 4 \              # Tensor parallelism (4 GPUs)
    --max_batch_size 256 \
    --max_num_tokens 4096

# Client request
curl -X POST http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "meta-llama/Meta-Llama-3-8B",
    "messages": [{"role": "user", "content": "Hello!"}],
    "temperature": 0.7,
    "max_tokens": 100
  }'

Key features

Performance optimizations

  • In-flight batching: Dynamic batching during generation
  • Paged KV cache: Efficient memory management
  • Flash Attention: Optimized attention kernels
  • Quantization: FP8, INT4, FP4 for 2-4× faster inference
  • CUDA graphs: Reduced kernel launch overhead

Parallelism

  • Tensor parallelism (TP): Split model across GPUs
  • Pipeline parallelism (PP): Layer-wise distribution
  • Expert parallelism: For Mixture-of-Experts models
  • Multi-node: Scale beyond single machine

Advanced features

  • Speculative decoding: Faster generation with draft models
  • LoRA serving: Efficient multi-adapter deployment
  • Disaggregated serving: Separate prefill and generation

Common patterns

Quantized model (FP8)

from tensorrt_llm import LLM

# Load FP8 quantized model (2× faster, 50% memory)
llm = LLM(
    model="meta-llama/Meta-Llama-3-70B",
    dtype="fp8",
    max_num_tokens=8192
)

# Inference same as before
outputs = llm.generate(["Summarize this article..."])

Multi-GPU deployment

# Tensor parallelism across 8 GPUs
llm = LLM(
    model="meta-llama/Meta-Llama-3-405B",
    tensor_parallel_size=8,
    dtype="fp8"
)

Batch inference

# Process 100 prompts efficiently
prompts = [f"Question {i}: ..." for i in range(100)]

outputs = llm.generate(
    prompts,
    sampling_params=SamplingParams(max_tokens=200)
)

# Automatic in-flight batching for maximum throughput

Performance benchmarks

Meta Llama 3-8B (H100 GPU):

  • Throughput: 24,000 tokens/sec
  • Latency: ~10ms per token
  • vs PyTorch: 100× faster

Llama 3-70B (8× A100 80GB):

  • FP8 quantization: 2× faster than FP16
  • Memory: 50% reduction with FP8

Supported models

  • LLaMA family: Llama 2, Llama 3, CodeLlama
  • GPT family: GPT-2, GPT-J, GPT-NeoX
  • Qwen: Qwen, Qwen2, QwQ
  • DeepSeek: DeepSeek-V2, DeepSeek-V3
  • Mixtral: Mixtral-8x7B, Mixtral-8x22B
  • Vision: LLaVA, Phi-3-vision
  • 100+ models on HuggingFace

References

Resources

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。