Skip to content
記事一覧に戻る
Infrastructure12 min

DeepSeek を日本リージョンにデプロイする: vLLM・SGLang・Tokyo GPU 構成の実戦

Deploying DeepSeek in Japan: vLLM, SGLang and Tokyo GPU Setups

Yuki SatoCloud Infrastructure Architect
2026-04-2112 min
DeepSeekvLLMSGLangTokyo RegionGPU

なぜ Tokyo リージョンでセルフホストするのか

中国本土経由の DeepSeek 公式 API は安価だが、レイテンシ・データ越境規制・SLA の不安定さが課題になる。GMO・さくら・AWS Tokyo の GPU インスタンス、もしくは ConoHa/IDC フロンティアの自社 GPU 群でセルフホストする経路は、決済・医療・金融など秘匿性が要求される業務での現実解だ。

ハードウェア選定

| 構成 | 推奨モデル | 月額目安 | 備考 | | --- | --- | --- | --- | | 単機 H100 80GB ×1 | DeepSeek-V2.5 / Coder Lite | 80-120 万円 | PoC 段階に向く | | H100 80GB ×4 | DeepSeek-V3.2 (FP8 + MLA) | 320-450 万円 | 本番最小構成 | | H200 141GB ×4 | DeepSeek-R1 + V3.2 同居 | 480-600 万円 | KV キャッシュ余裕大 | | GB200 NVL72 共有 | R1 大規模並列推論 | 月 1,000 万円超 | 多テナント前提 |

vLLM での設定例

```bash vllm serve deepseek-ai/DeepSeek-V3.2 \ --tensor-parallel-size 4 \ --enable-expert-parallel \ --kv-cache-dtype fp8_e5m2 \ --max-model-len 65536 \ --gpu-memory-utilization 0.92 \ --enable-prefix-caching ```

`enable-expert-parallel` を有効化すると expert を GPU 間に分割でき、活性化通信は NVLink/InfiniBand が前提となる。NVSwitch がない構成では性能劣化が大きいので、PCIe オンリーのサーバでは非推奨である。

SGLang との比較

SGLang は RadixAttention によるプレフィックスキャッシュが強力で、エージェントワークロード(同一 system プロンプトの大量並列)では vLLM より 1.4-1.8 倍速いという報告が公開されている。社内 R&D の構造化出力ベンチでも SGLang のほうが JSON Schema 制約付き生成のスループットで優位だった。

| 観点 | vLLM | SGLang | | --- | --- | --- | | ドキュメント | 充実 | 中程度 | | Prefix Caching | あり | より高速 | | Constrained Decoding | あり | あり (xgrammar 統合) | | MoE Expert Parallel | あり | あり | | 運用知見 | 豊富 | 増えつつある |

ランニングコスト試算

社内 R&D での目安として、月 200M トークン処理を H100×4 セルフホストで賄うと 350-450 万円程度。DeepSeek 公式 API なら 30-50 万円。Claude Opus 4.5 経由なら 1,500-2,500 万円。コストだけ見れば公式 API が圧倒的だが、規制対応・SLA・データ越境を加味すると Tokyo セルフホストの選択は正当化されやすい。

観測と運用

  • Prometheus + Grafana で TTFT、TPOT、KV キャッシュ占有率、expert 活性度を可視化
  • expert 活性度の偏りが続く場合は `--load-format auto` の再ロードや load balancer 側のシャーディング見直しを検討
  • nginx リバースプロキシで OpenAI 互換 API として公開し、社内アプリは無改修で接続可能

結論

DeepSeek を本番運用するなら、vLLM はドキュメントとコミュニティの厚さで初手として安定。SGLang はエージェント中心ワークロードでの伸びしろが大きい。日本リージョンでの GPU 確保は GMO・さくら・AWS の在庫を継続監視して機会を逃さないこと。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら