Skip to content
記事一覧に戻る
Infrastructure13 min

分散推論 2026: Prefill/Decode 分離と SplitWise・DistServe の実装

Distributed Inference 2026: Prefill/Decode Disaggregation in Practice

Kenji WatanabeML Platform Engineer
2026-04-2213 min
Distributed InferencePrefill DecodeSplitWiseDistServeArchitecture

なぜ Prefill/Decode を分けるのか

LLM 推論は性質が大きく異なる 2 フェーズで構成される。Prefill は計算密度が高く(compute-bound)、Decode はメモリ帯域が支配的(memory-bound)。同じ GPU で両方を処理すると、互いの最適点を犠牲にする。disaggregation は両者を別 GPU プールで処理し、それぞれ最適な構成にする。

Prefill ノードと Decode ノード

  • Prefill ノード: コア性能重視、KV キャッシュは生成後に decode ノードに転送
  • Decode ノード: HBM 帯域重視、KV キャッシュをローカルに展開
  • 両者は高速ネットワーク(NVLink / InfiniBand)で接続

実装フレームワーク

  • SplitWise (Microsoft Research): 理論的なフレーム提案
  • DistServe (Peking University): 実装公開、複数モデル対応
  • Mooncake (Moonshot): Kimi の運用知見をオープン化
  • vLLM 0.9+ の disaggregated mode: 実験的サポート

ベンチ(社内 R&D)

| 構成 | TTFT p95 | TPOT p95 | スループット | | --- | --- | --- | --- | | 一体型 (H100 ×8) | 1.2 s | 35 ms | 1.8x | | 分離型 (Prefill 4 + Decode 4) | 0.7 s | 28 ms | 2.6x |

レイテンシ・スループットとも明確な改善。ただし運用複雑度は大きく上がる。

注意点

  • KV キャッシュ転送がボトルネックになる場合あり、NVLink 経由必須
  • 障害時のフェイルオーバーが複雑化(Prefill ノード障害 → 全体停止のリスク)
  • 観測対象が増える(2 種類のノードを別個に監視)

ユースケース適性

  • 適合: 大規模 SaaS 推論、TTFT 厳しい要求、長文プロンプトが多い
  • 不適合: 小規模社内利用、運用要員が少ない、単純な構成で十分なケース

まとめ

Disaggregated inference は 2026 年中盤から大手プロバイダで標準採用が進む見込み。SMB が直接構築するのは早いが、原理を理解しておくと「マネージド推論サービスを選ぶ際の評価軸」が明確になる。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら