なぜ Prefill/Decode を分けるのか
LLM 推論は性質が大きく異なる 2 フェーズで構成される。Prefill は計算密度が高く(compute-bound)、Decode はメモリ帯域が支配的(memory-bound)。同じ GPU で両方を処理すると、互いの最適点を犠牲にする。disaggregation は両者を別 GPU プールで処理し、それぞれ最適な構成にする。
Prefill ノードと Decode ノード
- Prefill ノード: コア性能重視、KV キャッシュは生成後に decode ノードに転送
- Decode ノード: HBM 帯域重視、KV キャッシュをローカルに展開
- 両者は高速ネットワーク(NVLink / InfiniBand)で接続
実装フレームワーク
- SplitWise (Microsoft Research): 理論的なフレーム提案
- DistServe (Peking University): 実装公開、複数モデル対応
- Mooncake (Moonshot): Kimi の運用知見をオープン化
- vLLM 0.9+ の disaggregated mode: 実験的サポート
ベンチ(社内 R&D)
| 構成 | TTFT p95 | TPOT p95 | スループット | | --- | --- | --- | --- | | 一体型 (H100 ×8) | 1.2 s | 35 ms | 1.8x | | 分離型 (Prefill 4 + Decode 4) | 0.7 s | 28 ms | 2.6x |
レイテンシ・スループットとも明確な改善。ただし運用複雑度は大きく上がる。
注意点
- KV キャッシュ転送がボトルネックになる場合あり、NVLink 経由必須
- 障害時のフェイルオーバーが複雑化(Prefill ノード障害 → 全体停止のリスク)
- 観測対象が増える(2 種類のノードを別個に監視)
ユースケース適性
- 適合: 大規模 SaaS 推論、TTFT 厳しい要求、長文プロンプトが多い
- 不適合: 小規模社内利用、運用要員が少ない、単純な構成で十分なケース
まとめ
Disaggregated inference は 2026 年中盤から大手プロバイダで標準採用が進む見込み。SMB が直接構築するのは早いが、原理を理解しておくと「マネージド推論サービスを選ぶ際の評価軸」が明確になる。