Skip to content
記事一覧に戻る
Infrastructure11 min

TensorRT-LLM vs vLLM: H100 上でのスループット・レイテンシ実測

TensorRT-LLM vs vLLM: Throughput and Latency Benchmarks on H100

Misaki HayashiAI Research Analyst
2026-04-2011 min
TensorRT-LLMvLLMBenchmarksH100NVIDIA

比較条件

  • ハードウェア: H100 80GB SXM5 ×4 (NVLink 900GB/s)
  • モデル: Llama-3.3-70B-Instruct, Qwen3-72B-Instruct, DeepSeek-V2.5-16B
  • ワークロード: 入力 2k / 出力 1k トークン、同時接続 32
  • 量子化: FP8 統一

結果

Llama-3.3-70B (FP8)

| 指標 | TensorRT-LLM | vLLM 0.9 | | --- | --- | --- | | TTFT p50 | 0.42 s | 0.55 s | | TPOT p50 | 18 ms | 22 ms | | スループット (concurrent 32) | 2,400 tok/s | 1,950 tok/s |

Qwen3-72B (FP8)

| 指標 | TensorRT-LLM | vLLM 0.9 | | --- | --- | --- | | TTFT p50 | 0.45 s | 0.58 s | | TPOT p50 | 19 ms | 23 ms | | スループット (concurrent 32) | 2,300 tok/s | 1,880 tok/s |

純パフォーマンスでは TensorRT-LLM が明確に優位。ただし運用観点では別途考慮が必要。

運用面の比較

| 観点 | TensorRT-LLM | vLLM | | --- | --- | --- | | モデル追加の容易さ | 専用ビルドが必要 | git clone で即起動 | | 多モデル切替 | 限定的 | LoRA / multi-model 対応 | | 量子化サポート | INT4/8, FP8, AWQ | FP8, AWQ, GPTQ など | | エコシステム | NVIDIA Triton 連携 | OpenAI 互換, 単体運用 | | ドキュメント | 厚い、ただし学習曲線急 | 軽い、公式ドキュメントが整備 |

選定指針

  • 純粋スループットと低レイテンシ最優先 → TensorRT-LLM + Triton
  • 多モデル運用、頻繁なモデル更新 → vLLM
  • 開発者 1-2 名の小規模運用 → vLLM
  • 大規模 SaaS、運用専任チーム有り → TensorRT-LLM

まとめ

TensorRT-LLM は性能で優位、vLLM は運用容易性で優位。SMB は基本 vLLM、SaaS 提供で性能が直接コストに効く局面では TensorRT-LLM、というのが現実的な選び分け。社内 R&D では複数モデルが混在する案件は vLLM、単一モデル × 高負荷の案件は TensorRT-LLM、と切り分けている。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら