Skip to content
기사 목록으로 돌아가기
infra11分

Cloudflare AI Gateway: AIアプリのインフラを10分で構築

Cloudflare AI Gateway: Build AI App Infrastructure in 10 Minutes

林 美咲Frontend Tech Lead
2026-03-1111分
CloudflareAI GatewayRate LimitingCachingObservability

이 글은 일본어로 작성되어 있습니다. 한국어 요약은 아래와 같습니다:

Cloudflare AI Gateway: Build AI App Infrastructure in 10 MinutesCloudflare AI Gatewayを使ったAIアプリケーションのインフラ構築ガイド。レート制限、キャッシング、アナリティクス、プロバイダーフォールバックを10分でセットアップする。

AIアプリのインフラ問題

AIアプリケーションを本番運用する際、モデルの性能以前にインフラ面の課題が山積する。レート制限の管理、コスト暴走の防止、レスポンスキャッシング、複数プロバイダー間のフォールバック、利用状況の可視化。これらを自前で実装すると、3-4週間のエンジニアリング工数が必要だ。

Cloudflare AI Gatewayはこれらの機能をマネージドサービスとして提供する。KGAでは本番環境のAIアプリケーション4つでAI Gatewayを採用しており、その実践的な知見を共有する。

セットアップ: 本当に10分で完了する

Cloudflareダッシュボードで「AI」→「AI Gateway」からゲートウェイを作成する。名前を付けてエンドポイントURLを取得したら、既存のAPIコールのbase URLを差し替えるだけだ。

例えばOpenAI APIの場合、https://api.openai.com/v1 を https://gateway.ai.cloudflare.com/v1/{account_id}/{gateway_name}/openai に変更する。コード側の変更は1行。SDKの設定でbase URLを上書きするだけで、リクエストがCloudflare経由でプロキシされる。

対応プロバイダーはOpenAI、Anthropic、Google AI Studio、Azure OpenAI、HuggingFace、Workers AI、Amazon Bedrock、Perplexity、Mistral、Groqなど主要サービスを網羅している。Universal Endpointを使えばプロバイダーをコード変更なしに切り替えられる。

レート制限の設計

AI Gatewayのレート制限は3つのレベルで設定可能だ。Gateway全体の制限(例: 10,000 req/min)、プロバイダー単位の制限(OpenAI: 5,000 req/min、Anthropic: 3,000 req/min)、カスタムルールによるユーザー単位の制限。

KGAの本番環境では、以下の設定を採用している。フリープランユーザー: 20 req/hour、有料プランユーザー: 200 req/hour、内部サービス: 5,000 req/hour。これをCloudflareのカスタムヘッダーとルールで実装している。APIキーではなくJWTのclaimでユーザーティアを判定し、Gateway側でレート制限を適用する。

重要な点として、トークンベースのレート制限にも対応している。リクエスト数だけでなく、消費トークン数でも制限をかけられるため、1リクエストで大量のトークンを消費するユースケース(長文要約など)でのコスト暴走を防止できる。

キャッシング戦略

AI Gatewayのキャッシングは、同一プロンプトに対するレスポンスをキャッシュし、2回目以降のリクエストではLLM APIを呼ばずにキャッシュから返す。temperature=0の決定論的なリクエストで特に有効だ。

KGAの実測では、キャッシュヒット率は用途によって大きく異なる。FAQ応答系: ヒット率62%、レイテンシ95%削減。コード補完系: ヒット率28%。自由対話系: ヒット率8%。FAQや定型処理ではキャッシュの効果が絶大で、月間APIコストを40%以上削減できた。

キャッシュのTTL(有効期限)はデフォルト5分だが、KGAでは用途別に設定している。最新性が不要なナレッジベース検索: TTL 24時間。日次更新データに基づく分析: TTL 1時間。リアルタイム性が必要な対話: キャッシュ無効。

プロバイダーフォールバック

本番運用で最も価値があるのがフォールバック機能だ。Universal Endpointで複数プロバイダーを優先順位付きで指定すると、第1候補が障害やレート制限に達した場合、自動的に第2候補にフォールバックする。

KGAの構成例: 第1候補 OpenAI GPT-4o → 第2候補 Anthropic Claude 3.5 Sonnet → 第3候補 Google Gemini 1.5 Pro。この構成で過去6ヶ月間、エンドユーザーに影響するダウンタイムはゼロだった。OpenAIの障害は月平均2.3回発生しているが、全てフォールバックで吸収できている。

フォールバック時のプロンプト互換性は注意が必要だ。OpenAI固有の機能(structured outputsのstrict modeなど)を使っている場合、フォールバック先では動作しない。KGAでは最小公約数的なAPI仕様でプロンプトを設計し、プロバイダー固有機能への依存を避けている。

アナリティクスとコスト可視化

AI Gatewayのダッシュボードでは、リクエスト数、トークン消費量、レイテンシ分布、エラー率、キャッシュヒット率、プロバイダー別コストがリアルタイムで可視化される。Logpush機能でログをS3やR2に転送し、長期分析も可能だ。

KGAではDatadogと連携し、AI Gatewayのメトリクスを既存の監視ダッシュボードに統合している。特に「コスト/リクエスト」と「コスト/成功リクエスト」の2つのメトリクスを重視しており、リトライを含めた実効コストを常時監視している。月次のコストレビューでは、このデータを基にモデル選定とキャッシュ戦略の最適化を行っている。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ