Skip to content
記事一覧に戻る
Industry Analysis13分

ベンチマーク劇場: 飽和・汚染・誇張の構造

Benchmark Theater: Saturation, Contamination, and Cherry-picking

永野 舞Benchmark & Evaluation Analyst
2026-04-2413分
BenchmarksHumanEvalMMLUSWE-BenchEvaluation

プレスリリースのスコアを疑うことから始める

新モデルの発表が出るたびに、HumanEval、MMLU、GSM8K、SWE-Bench、MATH などのベンチマーク数値が表組みで並ぶ。その瞬間に SNS 上で「GPT-x を越えた」「オープンソースがフロンティアに追いついた」といった単純化が拡散する。しかし2026年の現在、これらの数値はすでに素朴に受け取れる段階を過ぎている。本稿ではよく参照される4つのベンチマークについて、言説を相対化する材料を整理する。

HumanEval の飽和

HumanEval は164問のコード生成タスク群で、2021年に OpenAI が公開した初期の主要指標である。2023年の時点で上位モデルはすでに80%台に到達し、2025〜2026年には主要フロンティアモデルが90%後半に張り付いている、と各社の技術レポートは報告している。つまり、新モデルのプレスで HumanEval のスコアを大きく掲げること自体が、数年前の尺度で測っていることを露呈する所作になりつつある。

飽和が示唆するのは、「このベンチマークはもう識別力を失った」という事実だ。数点の差が実務性能の差を反映しているかは不明で、プロンプト設計、temperature、評価スクリプトの細部で上下する。HumanEval+ や EvalPlus のように評価を厳格化した派生版が活用されているが、それらを掲載しないプレスは、測定の自由度を利用した可能性を疑うべき対象になる。

MMLU の学習データ汚染

MMLU は57科目、約1.6万問からなる広範な知識テストだ。公開直後は人間の専門家水準との距離を測る良質な指標だったが、2023〜2024年にかけて「事前学習コーパスに MMLU の問題文が部分的に混入している」という汚染疑義が複数の研究者から報告された。Web クロールで収集される訓練データに、ベンチマーク問題の解説記事や学生の質問投稿が含まれるため、完全な未汚染データセットを保つのは極めて困難である。

対策として MMLU-Pro、MMLU-Redux、GPQA Diamond などの後継・派生版が提案されている。GPQA は博士課程レベルの専門問題で、Web 上の解答が相対的に少ないとされる。新モデル発表で MMLU のみを掲示している場合、より汚染耐性の高い指標を併記しない理由を問う姿勢が必要だ。

SWE-Bench の運用揺らぎ

SWE-Bench は実際の GitHub Issue と修正 PR をもとにした、エージェント型コーディング評価である。実務を模した素晴らしい設計だが、運用上の揺らぎが大きい。解決に必要なリポジトリ状態の準備、依存関係、テスト実行環境、ツール呼出の許可範囲、評価時の補助プロンプトなど、設定が多いため、同じモデルでもスコアが10%以上振れるケースが報告されている。

SWE-Bench Verified のような人手選別サブセット、SWE-Bench Lite、SWE-Bench Multimodal などの派生が順次登場している。プレス発表を読む際は、(a) どの派生版か、(b) エージェントの補助ツール構成、(c) 何試行の best-of-n か、を必ず確認したい。条件開示のないスコアは、事実上の自己申告と同格に扱うべきだ。

プレスリリースのチェリーピッキング

各社のモデル発表は、戦略的な指標選択の上に成立している。自社が強い指標だけを主題化し、弱い指標を脚注へ追いやる所作は、もはや業界の標準文法である。これは詐欺ではなく、マーケティング装置としての正常動作だが、ユーザー側は装置の仕様を理解して読む必要がある。

実務的には、自社ユースケースの代表タスク10〜30件で、複数モデルをブラインド評価する内製プロセスが最も信頼できる。KGA では、顧客の本番ログから匿名化・サンプリングした評価セットをリポジトリ化し、新モデルが出るたびに再走させる運用を推奨している。公開ベンチマークは一次スクリーニングには使えるが、採用判断の主根拠には据えない。

評価文化の再設計へ

ベンチマーク劇場の問題は、個々のベンチマークの欠陥というより、「単一数値で優劣を語る」社会的習慣にある。モデル能力は多次元であり、ユースケースごとに重視すべき軸が違う。2026年現在、評価の主戦場は、共通ベンチマークの絶対値より、「自分たちの業務タスクで安定して動くか」という契約的な評価基盤の整備に移りつつある。

数値の見栄えで資金を集めるフェーズから、数値の意味を監査されるフェーズへ、市場の成熟が始まっている。プレスの大きなフォントのパーセント表示に、読み手として一呼吸置く習慣を、業界全体で取り戻したい。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ