直近の価格推移
- GPT-3.5 (2023): $2 / 1M output → GPT-4o-mini (2024): $0.6
- Claude Opus 3 (2024): $75 / 1M output → Claude Opus 4.5 (2026): $75(同価格、性能は向上)
- DeepSeek V2 (2024): $0.5 → V3.2 (2026): $1.10(ただし精度大幅向上)
絶対価格の下落と、「同価格で性能向上」の二系統で per-quality コストが下がってきた。
提供コスト
- GPU の出荷量増、製造コスト下落
- 推論最適化(FP8、PagedAttention、speculative decoding)
- KV キャッシュ・プロンプトキャッシュの本番化
ハードと最適化の両輪で per-token コストは年率 30-40% 下落していると推定。
競争環境
- DeepSeek、Qwen、Mistral 等の OSS が「クローズドの底値」を強く下押し
- 米中欧の主要プレイヤー数が増加
- Cloudflare、Replicate、Together、Fireworks 等のマネージド推論層が価格圧力
2026 トレンド予想
- 標準クラス(GPT-4o、Sonnet 4.6 同等)は年内更に -30% の可能性
- フロンティア(Opus 4.7、GPT-5)は同価格維持、性能向上で per-quality 改善
- セルフホスト OSS は per-token コストでクローズドを下回り続ける
SMB 予算計画
- AI 予算は年次見直しを前提に、上限を 30% 下げて再評価
- 2026 年下期に再交渉できる短期契約を選好
- LiteLLM Proxy 等で「乗り換えやすい状態」を維持
まとめ
価格下落は今後も続くが、減速の兆しもある。SMB は「年次でモデルを見直す」「ベンダーロックインを避ける」「新モデルを評価する社内体制を作る」の 3 点を意識し、コスト最適化を継続する。