設計目標
- 国内全域から p95 TTFT < 300ms
- 1 拠点障害時も他拠点で継続提供
- モデル更新は 5 分以内に全拠点反映
アーキテクチャ
``` ユーザー → Cloudflare (Geo Routing) → 東京 / 大阪 / 名古屋 推論クラスタ ↓ 共有 Object Storage (モデル / プロンプトキャッシュ) ```
ノード構成
各拠点で H100 80GB ×4 + vLLM 0.9 + FP8 KV キャッシュ。同一モデルバージョンを全拠点に同期。
モデル同期
- S3 互換 Object Storage に重みを置く
- 各ノードは起動時に rsync 取得、HBM へロード
- バージョン更新時は green/blue デプロイ(旧バージョンを停止する前に新バージョン起動)
プロンプトキャッシュ整合性
- 拠点間で共有しない(拠点ローカルのみ)
- キャッシュヒット率は各拠点ごとに監視
ルーティング戦略
- 通常時: 最近接拠点へ振り分け
- ノード障害: GeoDNS 重み減算 + 自動切替
- 過負荷時: 別拠点に部分流入
計測
- 拠点別 p95 TTFT
- 拠点間フェイルオーバ発火数
- 拠点別キャッシュヒット率
- モデル同期 lag
コスト試算
- 拠点 × H100 80GB ×4 = 月 1,000-1,200 万円。SMB 単独で組むには重いが、業界 SaaS や複数顧客向け基盤として組むと正当化しやすい。
まとめ
エッジ LLM 推論は「全国の SaaS」「IoT デバイスからの推論要求」など低レイテンシ要件のあるユースケースで価値がある。CDN ベンダー(Cloudflare / Fastly)が推論機能をエッジ統合する流れも進んでおり、自前構築の選択肢は今後 1-2 年で広がる。