Skip to content
記事一覧に戻る
Infrastructure12 min

AMD MI300X + ROCm 6 で LLM 推論を回す: vLLM 対応状況と実測ベンチ

LLM Inference on AMD MI300X with ROCm 6: vLLM Support and Benchmarks

Yuki SatoML Platform Engineer
2026-04-2312 min
AMDMI300XROCmvLLMLLM Inference

MI300X の魅力

  • GB HBM3 という大容量メモリは、70B-100B クラスの単機推論で大きな利点になる。FP8 演算性能は H100 を超え、価格は単 GPU 比で H100 の 0.7-0.8 倍程度(提供チャネルにより変動)。

ROCm 6 + vLLM

vLLM は ROCm 6 のサポートがメインライン化され、tensor-parallel・FP8・prefix caching が CUDA 版と同様に使える。triton カーネルの互換性も大きく改善し、社内 R&D での運用上の落とし穴は減った。

```bash vllm serve meta-llama/Llama-3.3-70B-Instruct \ --tensor-parallel-size 4 \ --kv-cache-dtype fp8 \ --gpu-memory-utilization 0.92 ```

ベンチ結果(社内 R&D, Llama-3.3-70B, FP8)

| 指標 | H100 80GB ×4 | MI300X ×4 | | --- | --- | --- | | TTFT (4k prompt) | 0.55 s | 0.62 s | | Throughput (concurrent 64) | 1,800 tok/s | 1,950 tok/s | | 同時接続上限 (16k ctx) | 80 | 140 |

メモリ容量の差で同時接続数は明確に MI300X が優位。レイテンシは僅差で H100。

弱点

  • エコシステム成熟度: PyTorch のマイナー機能、bitsandbytes 系の対応が CUDA より遅い
  • ドキュメント: 日本語情報が少ない
  • NCCL 相当の RCCL の安定性: 特定構成でハング報告あり、ROCm 6.2 以降で改善

国内調達性

  • 直販: 限定、代理店経由が現実的
  • AWS, Oracle Cloud で MI300X インスタンスが東京リージョンに展開
  • 国内 IDC で導入する場合は冷却設計の事前検討が必要

ユースケース適性

  • 70B-100B クラスの大容量モデル単機推論 → MI300X が魅力
  • 一般的な 7B-13B モデルの大量並列 → H100 優位
  • バッチ翻訳や長文要約のオフピーク推論 → MI300X クラウドオンデマンド

まとめ

MI300X は「大容量メモリで余裕を持って 70B+ を動かしたい」用途で具体的な選択肢になっている。社内 R&D では MI300X クラウドインスタンスをバッチ推論用に併用し、H100 オンプレを低レイテンシ用途に絞る運用パターンが組みやすい。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら