比較条件
- ハードウェア: H100 80GB SXM5 ×4 (NVLink 900GB/s)
- モデル: Llama-3.3-70B-Instruct, Qwen3-72B-Instruct, DeepSeek-V2.5-16B
- ワークロード: 入力 2k / 出力 1k トークン、同時接続 32
- 量子化: FP8 統一
結果
Llama-3.3-70B (FP8)
| 指標 | TensorRT-LLM | vLLM 0.9 | | --- | --- | --- | | TTFT p50 | 0.42 s | 0.55 s | | TPOT p50 | 18 ms | 22 ms | | スループット (concurrent 32) | 2,400 tok/s | 1,950 tok/s |
Qwen3-72B (FP8)
| 指標 | TensorRT-LLM | vLLM 0.9 | | --- | --- | --- | | TTFT p50 | 0.45 s | 0.58 s | | TPOT p50 | 19 ms | 23 ms | | スループット (concurrent 32) | 2,300 tok/s | 1,880 tok/s |
純パフォーマンスでは TensorRT-LLM が明確に優位。ただし運用観点では別途考慮が必要。
運用面の比較
| 観点 | TensorRT-LLM | vLLM | | --- | --- | --- | | モデル追加の容易さ | 専用ビルドが必要 | git clone で即起動 | | 多モデル切替 | 限定的 | LoRA / multi-model 対応 | | 量子化サポート | INT4/8, FP8, AWQ | FP8, AWQ, GPTQ など | | エコシステム | NVIDIA Triton 連携 | OpenAI 互換, 単体運用 | | ドキュメント | 厚い、ただし学習曲線急 | 軽い、公式ドキュメントが整備 |
選定指針
- 純粋スループットと低レイテンシ最優先 → TensorRT-LLM + Triton
- 多モデル運用、頻繁なモデル更新 → vLLM
- 開発者 1-2 名の小規模運用 → vLLM
- 大規模 SaaS、運用専任チーム有り → TensorRT-LLM
まとめ
TensorRT-LLM は性能で優位、vLLM は運用容易性で優位。SMB は基本 vLLM、SaaS 提供で性能が直接コストに効く局面では TensorRT-LLM、というのが現実的な選び分け。社内 R&D では複数モデルが混在する案件は vLLM、単一モデル × 高負荷の案件は TensorRT-LLM、と切り分けている。