Skip to content
記事一覧に戻る
Infrastructure11 min

エッジ LLM 推論を東京・大阪に分散する: CDN + 推論ノードの設計

Edge LLM Inference Across Tokyo and Osaka: CDN + Node Design

Yuki SatoCloud Infrastructure Architect
2026-04-1611 min
Edge InferenceCDNTokyoOsakaLatency

設計目標

  • 国内全域から p95 TTFT < 300ms
  • 1 拠点障害時も他拠点で継続提供
  • モデル更新は 5 分以内に全拠点反映

アーキテクチャ

``` ユーザー → Cloudflare (Geo Routing) → 東京 / 大阪 / 名古屋 推論クラスタ ↓ 共有 Object Storage (モデル / プロンプトキャッシュ) ```

ノード構成

各拠点で H100 80GB ×4 + vLLM 0.9 + FP8 KV キャッシュ。同一モデルバージョンを全拠点に同期。

モデル同期

  • S3 互換 Object Storage に重みを置く
  • 各ノードは起動時に rsync 取得、HBM へロード
  • バージョン更新時は green/blue デプロイ(旧バージョンを停止する前に新バージョン起動)

プロンプトキャッシュ整合性

  • 拠点間で共有しない(拠点ローカルのみ)
  • キャッシュヒット率は各拠点ごとに監視

ルーティング戦略

  • 通常時: 最近接拠点へ振り分け
  • ノード障害: GeoDNS 重み減算 + 自動切替
  • 過負荷時: 別拠点に部分流入

計測

  • 拠点別 p95 TTFT
  • 拠点間フェイルオーバ発火数
  • 拠点別キャッシュヒット率
  • モデル同期 lag

コスト試算

  • 拠点 × H100 80GB ×4 = 月 1,000-1,200 万円。SMB 単独で組むには重いが、業界 SaaS や複数顧客向け基盤として組むと正当化しやすい。

まとめ

エッジ LLM 推論は「全国の SaaS」「IoT デバイスからの推論要求」など低レイテンシ要件のあるユースケースで価値がある。CDN ベンダー(Cloudflare / Fastly)が推論機能をエッジ統合する流れも進んでおり、自前構築の選択肢は今後 1-2 年で広がる。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら