Skip to content
記事一覧に戻る
Models12 min

OpenAI o1/o3 vs Claude Opus Extended Thinking: 推論モデルベンチ徹底比較

OpenAI o1/o3 vs Claude Opus Extended Thinking: Reasoning Bench

Misaki HayashiAI Research Analyst
2026-04-2112 min
o1o3Extended ThinkingReasoningBenchmarks

比較条件

  • ベンチ: AIME 2025, GPQA Diamond, ARC-AGI 2, SWE-bench Verified
  • 推論バジェット: o3 high, Opus 4.5/4.7 thinking budget 16k tokens
  • 同一プロンプト、温度 0、各 5 試行平均

結果

| ベンチ | o1 | o3 | Opus 4.5 (think) | Opus 4.7 (think) | | --- | --- | --- | --- | --- | | AIME 2025 | 86.7 | 91.4 | 89.1 | 92.3 | | GPQA Diamond | 76.7 | 87.7 | 84.5 | 88.4 | | ARC-AGI 2 | 22.4 | 75.7 | 41.2 | 48.6 | | SWE-bench Verified | 48.9 | 71.6 | 71.8 | 76.2 |

ARC-AGI 2 は o3 が独走。それ以外のベンチでは Opus 4.7 がトップ、o3 が次点、Opus 4.5 と o1 が並ぶ。

レイテンシとコスト

  • o3 high: 1 タスク 30-90 秒、API 価格高め
  • Opus 4.5 thinking: 1 タスク 15-40 秒
  • Opus 4.7 thinking: 1 タスク 20-50 秒、出力単価 1.5-2x

用途別おすすめ

  • 数学コンペ、ARC 系の純粋論理 → o3
  • 業務エンジニアリング、コードベース改修 → Opus 4.7 thinking
  • 一般推論タスク(戦略立案、分析) → Opus 4.5 thinking が費用対効果最良
  • 大量バッチ × 中難度推論 → o1(コスト中で安定)

まとめ

「すべてのタスクで最強」のモデルは存在せず、用途別に使い分けるのが正解。社内 R&D では Opus 4.5/4.7 を主軸に、ARC 系の特殊推論案件のみ o3 を併用する構成で運用している。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら