なぜ MMLU では足りなくなったのか
- 年に Hendrycks らが公開した MMLU は 57 科目・15,908 問の選択式で、長らく汎用知識ベンチの代表格だった。しかし 2026 年 4 月時点、公開情報によれば (2026-04 時点) 主要フロンティアモデルは標準 MMLU でほぼ 89-92% のレンジに収束しており、モデル差を識別する解像度が失われている。Vellum や Artificial Analysis のリーダーボードでも、上位群は誤差バンド内で重なる状態が続いていると報告される。
MMLU-Pro の三つの改良
Wang et al. の論文「MMLU-Pro: A More Robust and Challenging Multi-task Language Understanding Benchmark」(2024)は、(1) 選択肢を 4 から 10 に拡張、(2) 推論集約的な問題を増強、(3) ノイジーな問題と容易に当たる問題を除外、という三点で MMLU を再設計した。結果、ランダム推測のベースラインが 25% から 10% に下がり、CoT(chain-of-thought)の効果がスコアに明確に現れるようになった。
2026 Q2 の上位スコア
公開リーダーボード(Artificial Analysis、llm-stats、pricepertoken)の集計によれば (2026-04 時点)、MMLU-Pro 上位は Gemini 3.1 Pro Preview が 90.99%、Gemini 3 Pro が 90.10%、Claude Opus 4.7 が 89.87% 前後と報告される。標準 MMLU と比べてレンジが広がり、上位間でも 1-2 ポイントの実質的差が見えるようになった点が運用上の価値である。ただしベンダー側の自己申告と第三者再現値で 1-3 ポイントずれる事例も観測されており、単一ソースで決め打ちしないことが推奨される。
評価実装で再現性を壊す要因
MMLU-Pro を社内再現するときの典型的な落とし穴を列挙する。第一に CoT を使うか否かで上位モデルでも 5-10 ポイント変動する。第二にプロンプトのフォーマット(A/B/C... vs 1/2/3...、各選択肢の前置詞)でスコアがぶれる。第三に正解抽出のパース(最後の \`Answer:\` に頼るか、JSON モードを強制するか)で誤判定が混入する。第四に 10 択になった分、序数バイアス(A を選びやすい等)の影響が拡大している。これらを揃えずにベンダー比較すると、モデルではなく評価ハーネスの差を測ることになる。
モデル選定への接続
KGA IT のような中堅 SI が顧客に「どのモデルを採用すべきか」を助言する局面では、MMLU-Pro の絶対値だけでなく、(1) 自社ドメインに近い科目(法務・医療・工学など)のサブスコア、(2) コスト・レイテンシとのトレードオフ、(3) 他ベンチ(GPQA、SWE-Bench、LiveBench)との整合性、を併読する必要がある。MMLU-Pro 単独では「広く浅い知識」に偏った視点しか得られない。
まとめ:飽和の次の指標
MMLU-Pro は 2026 年現在、汎用知識ベンチの実質標準として機能しているが、上位群の収束が進めばさらに後継(高 PhD 級問題、汚染対策、推論深度測定)が必要になる。リーダーボードの数字を読むときは、版(Wang らの v1 か、コミュニティ拡張版か)、CoT 設定、温度、サンプル数、を毎回確認する習慣が、長期にわたって信頼できる比較を支える。