「推論」という曖昧語をほぐす
ベンチマークの宣伝文句で「推論能力」と言うとき、それが指すものはバラバラだ。GPQA-Diamond は専門領域の知識集約型 QA、ARC-AGI v2 は新規パターンを抽象化する流動的知能寄りの課題で、必要な認知能力が異なる。両方を見ないと、モデルの強み弱みは把握できない。
GPQA-Diamond の設計
David Rein, Betty Li Hou, Asa Cooper Stickland らの 2023 年論文「GPQA: A Graduate-Level Google-Proof Q&A Benchmark」が原典で、Diamond サブセットは 198 問。専門家アノテーターは正解する一方、非専門家は十分な検索時間を与えても多数派が外す、という条件で選抜されている。物理・化学・生物の博士相当の難問が中心で、知識と短鎖推論の融合を測る。
ARC-AGI v2 の設計
François Chollet が 2019 年に発表した ARC は、数例から新規スキルを獲得する流動的知能を測る目的で設計された。Chollet ら 2025 年の「ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems」(arXiv:2505.11831)で第二版が公開され、人間にとっては容易だが LLM が苦戦するパターン抽象化問題が大幅に強化された。事前知識ではなく、提示された数例の規則を新規入力に適用できるかが問われる。
2026 Q2 のスコア状況
公開情報によれば (2026-04 時点)、GPQA-Diamond は Gemini 3.1 Pro Preview が 94.1%、Claude Opus 4.7 が 94.2%、GPT-5.4 が 92.0% 付近と報告され、上位群が 90% 台で密集する飽和域に入りつつある。一方 ARC-AGI v2 は、Gemini 3 Deep Think が 84.6%、API 公開モデルでは Gemini 3.1 Pro が 88.1% 程度と報告される。GPQA で 94% の同モデルが ARC-AGI v2 で 50-80% 台というギャップが、両ベンチの測定対象の違いを端的に示す。
ギャップが意味すること
GPQA で高得点でも ARC-AGI v2 で苦戦するというパターンは、(1) 学術知識を「思い出して合成する」能力と、(2) 提示例だけから抽象規則を「即興で構築する」能力が独立した次元であることを示唆する。実務でも、ナレッジ集約型タスク(法令調査、技術仕様の解釈)と、新規業務フローを少例から学ばせるタスクでは、向いているモデルが分かれ得る。
ベンチマーク汚染と運用上の注意
GPQA-Diamond は問題が web 上で見つかりやすく、汚染懸念がある。一方 ARC-AGI v2 は ARC Prize Foundation がプライベートテストセットを管理しており、上位スコアの多くは Kaggle 経由の公式評価に基づくと報告される。再現実験では、(1) GPQA は zero-shot CoT、(2) ARC は few-shot で例示数とフォーマットを統一、(3) 両者ともサンプル数と温度を固定、が最低限の条件になる。
まとめ
GPQA-Diamond と ARC-AGI v2 を一枚のレーダーチャートに並べる運用が、2026 年の合理的なモデル選定の出発点だ。KGA IT が顧客提案で利用するモデル比較資料でも、片方だけで「推論最強」と言わないことを強く推奨する。