MI300X の魅力
- GB HBM3 という大容量メモリは、70B-100B クラスの単機推論で大きな利点になる。FP8 演算性能は H100 を超え、価格は単 GPU 比で H100 の 0.7-0.8 倍程度(提供チャネルにより変動)。
ROCm 6 + vLLM
vLLM は ROCm 6 のサポートがメインライン化され、tensor-parallel・FP8・prefix caching が CUDA 版と同様に使える。triton カーネルの互換性も大きく改善し、社内 R&D での運用上の落とし穴は減った。
```bash vllm serve meta-llama/Llama-3.3-70B-Instruct \ --tensor-parallel-size 4 \ --kv-cache-dtype fp8 \ --gpu-memory-utilization 0.92 ```
ベンチ結果(社内 R&D, Llama-3.3-70B, FP8)
| 指標 | H100 80GB ×4 | MI300X ×4 | | --- | --- | --- | | TTFT (4k prompt) | 0.55 s | 0.62 s | | Throughput (concurrent 64) | 1,800 tok/s | 1,950 tok/s | | 同時接続上限 (16k ctx) | 80 | 140 |
メモリ容量の差で同時接続数は明確に MI300X が優位。レイテンシは僅差で H100。
弱点
- エコシステム成熟度: PyTorch のマイナー機能、bitsandbytes 系の対応が CUDA より遅い
- ドキュメント: 日本語情報が少ない
- NCCL 相当の RCCL の安定性: 特定構成でハング報告あり、ROCm 6.2 以降で改善
国内調達性
- 直販: 限定、代理店経由が現実的
- AWS, Oracle Cloud で MI300X インスタンスが東京リージョンに展開
- 国内 IDC で導入する場合は冷却設計の事前検討が必要
ユースケース適性
- 70B-100B クラスの大容量モデル単機推論 → MI300X が魅力
- 一般的な 7B-13B モデルの大量並列 → H100 優位
- バッチ翻訳や長文要約のオフピーク推論 → MI300X クラウドオンデマンド
まとめ
MI300X は「大容量メモリで余裕を持って 70B+ を動かしたい」用途で具体的な選択肢になっている。社内 R&D では MI300X クラウドインスタンスをバッチ推論用に併用し、H100 オンプレを低レイテンシ用途に絞る運用パターンが組みやすい。