なぜ Tokyo リージョンでセルフホストするのか
中国本土経由の DeepSeek 公式 API は安価だが、レイテンシ・データ越境規制・SLA の不安定さが課題になる。GMO・さくら・AWS Tokyo の GPU インスタンス、もしくは ConoHa/IDC フロンティアの自社 GPU 群でセルフホストする経路は、決済・医療・金融など秘匿性が要求される業務での現実解だ。
ハードウェア選定
| 構成 | 推奨モデル | 月額目安 | 備考 | | --- | --- | --- | --- | | 単機 H100 80GB ×1 | DeepSeek-V2.5 / Coder Lite | 80-120 万円 | PoC 段階に向く | | H100 80GB ×4 | DeepSeek-V3.2 (FP8 + MLA) | 320-450 万円 | 本番最小構成 | | H200 141GB ×4 | DeepSeek-R1 + V3.2 同居 | 480-600 万円 | KV キャッシュ余裕大 | | GB200 NVL72 共有 | R1 大規模並列推論 | 月 1,000 万円超 | 多テナント前提 |
vLLM での設定例
```bash vllm serve deepseek-ai/DeepSeek-V3.2 \ --tensor-parallel-size 4 \ --enable-expert-parallel \ --kv-cache-dtype fp8_e5m2 \ --max-model-len 65536 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching ```
`enable-expert-parallel` を有効化すると expert を GPU 間に分割でき、活性化通信は NVLink/InfiniBand が前提となる。NVSwitch がない構成では性能劣化が大きいので、PCIe オンリーのサーバでは非推奨である。
SGLang との比較
SGLang は RadixAttention によるプレフィックスキャッシュが強力で、エージェントワークロード(同一 system プロンプトの大量並列)では vLLM より 1.4-1.8 倍速いという報告が公開されている。社内 R&D の構造化出力ベンチでも SGLang のほうが JSON Schema 制約付き生成のスループットで優位だった。
| 観点 | vLLM | SGLang | | --- | --- | --- | | ドキュメント | 充実 | 中程度 | | Prefix Caching | あり | より高速 | | Constrained Decoding | あり | あり (xgrammar 統合) | | MoE Expert Parallel | あり | あり | | 運用知見 | 豊富 | 増えつつある |
ランニングコスト試算
社内 R&D での目安として、月 200M トークン処理を H100×4 セルフホストで賄うと 350-450 万円程度。DeepSeek 公式 API なら 30-50 万円。Claude Opus 4.5 経由なら 1,500-2,500 万円。コストだけ見れば公式 API が圧倒的だが、規制対応・SLA・データ越境を加味すると Tokyo セルフホストの選択は正当化されやすい。
観測と運用
- Prometheus + Grafana で TTFT、TPOT、KV キャッシュ占有率、expert 活性度を可視化
- expert 活性度の偏りが続く場合は `--load-format auto` の再ロードや load balancer 側のシャーディング見直しを検討
- nginx リバースプロキシで OpenAI 互換 API として公開し、社内アプリは無改修で接続可能
結論
DeepSeek を本番運用するなら、vLLM はドキュメントとコミュニティの厚さで初手として安定。SGLang はエージェント中心ワークロードでの伸びしろが大きい。日本リージョンでの GPU 確保は GMO・さくら・AWS の在庫を継続監視して機会を逃さないこと。