Skip to content
Bumalik sa listahan ng mga artikulo
AI/AGI14 分

GPQA-Diamond と ARC-AGI v2:推論能力評価の現状と二つの異なる「難しさ」

GPQA-Diamond vs ARC-AGI v2: Two Faces of Reasoning Benchmarks in 2026

中谷 佳奈推論評価エンジニア
2026-04-2314 分
GPQAARC-AGIベンチマークAI 評価AI/AGI

Ang artikulong ito ay nasa wikang Hapon. Buod sa Filipino sa ibaba:

GPQA-Diamond vs ARC-AGI v2: Two Faces of Reasoning Benchmarks in 2026Rein らの GPQA-Diamond と Chollet らの ARC-AGI v2 は、ともに「推論」を測ると言われるが、測っているものは大きく異なる。2026 年 Q2 のスコア状況と、両者を併読する意味を解説する。

「推論」という曖昧語をほぐす

ベンチマークの宣伝文句で「推論能力」と言うとき、それが指すものはバラバラだ。GPQA-Diamond は専門領域の知識集約型 QA、ARC-AGI v2 は新規パターンを抽象化する流動的知能寄りの課題で、必要な認知能力が異なる。両方を見ないと、モデルの強み弱みは把握できない。

GPQA-Diamond の設計

David Rein, Betty Li Hou, Asa Cooper Stickland らの 2023 年論文「GPQA: A Graduate-Level Google-Proof Q&A Benchmark」が原典で、Diamond サブセットは 198 問。専門家アノテーターは正解する一方、非専門家は十分な検索時間を与えても多数派が外す、という条件で選抜されている。物理・化学・生物の博士相当の難問が中心で、知識と短鎖推論の融合を測る。

ARC-AGI v2 の設計

François Chollet が 2019 年に発表した ARC は、数例から新規スキルを獲得する流動的知能を測る目的で設計された。Chollet ら 2025 年の「ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems」(arXiv:2505.11831)で第二版が公開され、人間にとっては容易だが LLM が苦戦するパターン抽象化問題が大幅に強化された。事前知識ではなく、提示された数例の規則を新規入力に適用できるかが問われる。

2026 Q2 のスコア状況

公開情報によれば (2026-04 時点)、GPQA-Diamond は Gemini 3.1 Pro Preview が 94.1%、Claude Opus 4.7 が 94.2%、GPT-5.4 が 92.0% 付近と報告され、上位群が 90% 台で密集する飽和域に入りつつある。一方 ARC-AGI v2 は、Gemini 3 Deep Think が 84.6%、API 公開モデルでは Gemini 3.1 Pro が 88.1% 程度と報告される。GPQA で 94% の同モデルが ARC-AGI v2 で 50-80% 台というギャップが、両ベンチの測定対象の違いを端的に示す。

ギャップが意味すること

GPQA で高得点でも ARC-AGI v2 で苦戦するというパターンは、(1) 学術知識を「思い出して合成する」能力と、(2) 提示例だけから抽象規則を「即興で構築する」能力が独立した次元であることを示唆する。実務でも、ナレッジ集約型タスク(法令調査、技術仕様の解釈)と、新規業務フローを少例から学ばせるタスクでは、向いているモデルが分かれ得る。

ベンチマーク汚染と運用上の注意

GPQA-Diamond は問題が web 上で見つかりやすく、汚染懸念がある。一方 ARC-AGI v2 は ARC Prize Foundation がプライベートテストセットを管理しており、上位スコアの多くは Kaggle 経由の公式評価に基づくと報告される。再現実験では、(1) GPQA は zero-shot CoT、(2) ARC は few-shot で例示数とフォーマットを統一、(3) 両者ともサンプル数と温度を固定、が最低限の条件になる。

まとめ

GPQA-Diamond と ARC-AGI v2 を一枚のレーダーチャートに並べる運用が、2026 年の合理的なモデル選定の出発点だ。KGA IT が顧客提案で利用するモデル比較資料でも、片方だけで「推論最強」と言わないことを強く推奨する。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ