Skip to content
Back to articles
AI/AGI14 分

FrontierMath:数学推論ベンチマークの最高峰、2026 年現時点の到達度

FrontierMath in 2026: Frontier of Mathematical Reasoning Benchmarks

西野 美咲数理 AI リサーチエンジニア
2026-04-2414 分
FrontierMathベンチマークAI 評価数学推論AI/AGI

This article is published in Japanese. Summary in English below:

FrontierMath in 2026: Frontier of Mathematical Reasoning BenchmarksEpoch AI の FrontierMath は数学者でも数日かかる原問題で構成され、2024 年公開当初は 2% 未満だったスコアが 2026 年に急上昇した。Tier 4 と Open Problems の到達度を整理する。

FrontierMath とは何か

Epoch AI が 2024 年 11 月に公開した FrontierMath は、Tier 1-3 の 300 問と Tier 4 の 50 問、合計 350 問の未公開オリジナル数学問題で構成される。執筆には Terence Tao を含むフィールズ賞級の数学者が関与し、(1) 大学院上級〜研究レベル、(2) 数値もしくは厳密な記号解での自動採点が可能、(3) 公開コーパスに存在しない、という三条件で設計されている。汚染耐性が高く、数学推論の天井を測る道具として 2026 年も機能している。

スコアの急上昇

公開情報によれば (2026-04 時点)、FrontierMath 全体スコアは GPT-5.4 Pro が 50% 前後、上位群が 40-50% に集まると報告される。公開当初の 2024 年末には最先端モデルでも 2% 程度だった水準から、約 1 年半で 50% に到達した形だ。Tier 4 単独では o4-mini 系が 17% 前後、上位は 30% 台と報告され、最難問題でも非ゼロのスコアが出始めている。

急伸の背景

スコア上昇の主因は (1) 推論時計算(test-time compute)のスケーリング、(2) 数学特化の RL ポストトレーニング、(3) 検証器(verifier)と組み合わせたツール利用、と報告される。特に「思考時間を伸ばすと精度が上がる」という推論時スケーリング則が、FrontierMath のように厳密解を要する課題で効果が大きい。一方、推論時間と API コストのトレードオフは大きく、1 問あたり数ドル〜数十ドル規模のコストが報告される事例もある。

Open Problems コンポーネント

  • 年に Epoch AI が追加した「Open Problems」は、数学者が挑んで解けていない真の未解決問題を含む。スコアの絶対値は低いが、AI が一部問題で部分解や新しいアプローチを示すことがあり、ベンチマークの枠を超えて研究貢献としての評価が議論されつつある。「ベンチで 90% を取る」のとは別の意味での到達度である。

注意すべき指標解釈

FrontierMath のスコアを読むときに留意すべき点。第一に評価設定(pass@1 か pass@N か、コード実行ツールの可否、温度)で大きく変わる。第二にモデル開発元と Epoch AI の評価条件が完全一致しない場合がある(ハーネスの差)。第三に「推論モード」のあるモデルでは、低・中・高の推論深度設定でスコアが 10-30 ポイント変動し得る。発表値は通常「高」で測られるが、本番運用は「中」以下の場合が多く、本番期待値と乖離しやすい。

実務的含意

KGA IT が金融・保険・製造の数値解析業務で AI を導入する際、FrontierMath のスコアが高いモデルが必ずしもその業務に最適とは限らない。FrontierMath は研究レベルの抽象的・厳密な問題に偏っており、業務で必要な「正確な算数 + ドメイン知識 + 監査可能性」とは別軸だからだ。本番採用は自社問題による検証が前提で、FrontierMath は「上限性能の傍証」として読むのが健全だ。

まとめ

FrontierMath は 2026 年現在、AI 数学推論の最高難度ベンチとして機能しているが、急速な飽和の兆しもある。次世代として、Open Problems の拡張、長文証明(formal proof)の自動採点、複数領域の融合問題への移行が議論されると報告される。スコアの絶対値より、伸びの傾きと評価条件の透明性に注目すべき局面に来ている。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ