Skip to content
記事一覧に戻る
AI/AGI13 分

SWE-Bench Verified:2026 Q2 リーダーボード解読と Pro 移行の論点

SWE-Bench Verified in 2026 Q2: Reading the Leaderboard and the Shift to Pro

藤原 健司コード生成評価エンジニア
2026-04-2413 分
SWE-BenchベンチマークAI 評価モデル比較AI/AGI

SWE-Bench Verified の経緯

元の SWE-Bench は Princeton の Carlos Jimenez らが 2023 年に発表し、実際の GitHub issue と PR を使ってモデルが本物のバグ修正を行えるかを測った。2024 年 8 月、OpenAI が「Introducing SWE-bench Verified」で 500 問の人手検証済みサブセットを公開し、ノイズ問題(テストが曖昧、issue が不完全等)を除いた版が事実上の主流ベンチになった。

2026 Q2 の上位スコア

公開情報によれば (2026-04 時点)、SWE-Bench Verified は Claude Mythos Preview が 93.9%、GPT-5.3 Codex が 85.0%、Claude Opus 4.5 が 80.9% と報告される。年初に 60% 台だった上位スコアが半年以内に 80-90% に跳ね、ベンチが急速に飽和に向かっている。OpenAI は 2026 年初頭に Verified の自社スコア更新を停止し、Scale が運営する SWE-Bench Pro を推奨する姿勢に転じたと報告される。

Verified と Pro のギャップ

同じモデルが Verified で 93.9% を取りつつ、SWE-Bench Pro では 45.9% にとどまるという報告(Scale Labs リーダーボード)が、ベンチ飽和の本質を露わにした。Pro は (1) 学習データに含まれにくいリポジトリ、(2) より長い修正系列、(3) 隠されたテストケース、で構成され、汚染と暗記による上振れを抑制する設計だ。実務的に「Verified 90% 超」と「Pro 45%」のどちらが本番性能を予測するかは、後者であることが多いと示唆される。

スコアを鵜呑みにしないための着眼点

発表スコアを評価するときに確認すべき項目を挙げる。第一に scaffold(エージェント実装、ツール、リトライ回数)が公開されているか。SWE-Bench は素のモデル能力ではなく「モデル + エージェント + ツール」のシステム能力を測る。第二に pass@k の k が 1 か複数か。第三にコスト・実行時間。1 問あたり数十ドル消費する scaffold で得たスコアは、本番運用に即つながらない。第四にリポジトリ分布が学習カットオフ以降か(汚染リスクの間接的指標)。

採用判断への接続

KGA IT のような SI が顧客向けにコード生成エージェントを評価する場合、(1) Verified スコアでベースライン、(2) Pro で汚染抑制版、(3) 顧客リポジトリ由来の私的ホールドアウト、の三段で並べる。ベンダー資料の Verified 単体での「90% 越え」をそのまま提案書に転載するのは、2025 年以前の実務水準であり、2026 年では避けるべき形に変わった。

ベンチ進化の次のステップ

SWE-Bench Pro 以降、コミュニティでは「複数リポジトリにまたがる修正」「設計変更を含む大規模リファクタ」「セキュリティパッチの適用」など、より長期・横断的なタスクをカバーする後継ベンチの議論が進むと報告される。Verified のスコアが落ち着く一方、エージェント・ツール・コストの観点で評価軸が増えていくのが 2026 年後半の方向だ。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ