比較対象
- Claude Opus 4.5 (Anthropic / Bedrock Tokyo)
- Claude Sonnet 4.6 (Anthropic / Bedrock Tokyo)
- GPT-4o (OpenAI)
- DeepSeek V3.2 (公式 / Tokyo セルフホスト)
- Qwen3-72B (Tokyo セルフホスト)
per-token コスト(USD / 1M tokens, 出力ベース)
| モデル / 構成 | 入力 | 出力 | | --- | --- | --- | | Claude Opus 4.5 | 15 | 75 | | Claude Sonnet 4.6 | 3 | 15 | | GPT-4o | 5 | 20 | | DeepSeek V3.2 (公式) | 0.14 | 1.10 | | DeepSeek V3.2 (Tokyo H100×4) | 約 0.30 (固定費換算) | 約 1.20 | | Qwen3-72B (Tokyo H100×4) | 約 0.35 | 約 1.40 |
セルフホストの数字は「月 100M token 処理を前提に固定 GPU 費を per-token に按分」した近似値。
損益分岐点
| 想定月間トークン | 公式 API 月額 | セルフホスト月額 | 損益分岐 | | --- | --- | --- | --- | | 50M | 60,000 円 | 380 万円 | API 圧勝 | | 200M | 240,000 円 | 380 万円 | API 圧勝 | | 1B | 120 万円 | 380 万円 | API 優位 | | 5B | 600 万円 | 380 万円 | セルフホスト優位 | | 10B | 1,200 万円 | 380 万円 | セルフホスト圧勝 |
純コスト的には月 5B トークン超でセルフホストが逆転する。ただしレイテンシ・データ越境・ガードレール要件で逆転点は前後する。
隠れコスト
- セルフホスト: 運用要員 1 名分の人件費(年 800-1,200 万円)
- API: ベンダーロックイン、価格改定リスク
- 両者: 観測基盤・ガードレール・評価基盤の構築費
推奨判断軸
- 月 1B 以下 → API 利用
- 1-5B → ハイブリッド(機密だけセルフホスト、それ以外は API)
- 5B 以上 → セルフホスト主軸
まとめ
純コスト最適化だけでは判断を誤る。データ越境・SLA・運用力を含めた TCO で見ること、月次トークン消費を継続観測しながら逆転点を見極めることが重要。社内 R&D では LiteLLM Proxy のレポートを月次で経理にも共有し、判断材料を継続的に整備している。