比較条件
- ベンチ: AIME 2025, GPQA Diamond, ARC-AGI 2, SWE-bench Verified
- 推論バジェット: o3 high, Opus 4.5/4.7 thinking budget 16k tokens
- 同一プロンプト、温度 0、各 5 試行平均
結果
| ベンチ | o1 | o3 | Opus 4.5 (think) | Opus 4.7 (think) | | --- | --- | --- | --- | --- | | AIME 2025 | 86.7 | 91.4 | 89.1 | 92.3 | | GPQA Diamond | 76.7 | 87.7 | 84.5 | 88.4 | | ARC-AGI 2 | 22.4 | 75.7 | 41.2 | 48.6 | | SWE-bench Verified | 48.9 | 71.6 | 71.8 | 76.2 |
ARC-AGI 2 は o3 が独走。それ以外のベンチでは Opus 4.7 がトップ、o3 が次点、Opus 4.5 と o1 が並ぶ。
レイテンシとコスト
- o3 high: 1 タスク 30-90 秒、API 価格高め
- Opus 4.5 thinking: 1 タスク 15-40 秒
- Opus 4.7 thinking: 1 タスク 20-50 秒、出力単価 1.5-2x
用途別おすすめ
- 数学コンペ、ARC 系の純粋論理 → o3
- 業務エンジニアリング、コードベース改修 → Opus 4.7 thinking
- 一般推論タスク(戦略立案、分析) → Opus 4.5 thinking が費用対効果最良
- 大量バッチ × 中難度推論 → o1(コスト中で安定)
まとめ
「すべてのタスクで最強」のモデルは存在せず、用途別に使い分けるのが正解。社内 R&D では Opus 4.5/4.7 を主軸に、ARC 系の特殊推論案件のみ o3 を併用する構成で運用している。