Skip to content
Voltar aos artigos
AI/AGI11分

HumanEval+・BigCodeBench・SWE-Bench Verified:2026年の誠実な能力評価

HumanEval+, BigCodeBench, SWE-Bench Verified: Honest 2026 Capability Assessment

古橋 隆一AIリサーチアナリスト
2026-04-2411分
HumanEvalSWE-BenchBigCodeBenchベンチマークコード生成

Este artigo está publicado em japonês. Resumo em português abaixo:

HumanEval+, BigCodeBench, SWE-Bench Verified: Honest 2026 Capability AssessmentHumanEvalは飽和しました。HumanEval+、BigCodeBench、SWE-Bench Verifiedといった次世代ベンチマークが何を測り、2026年時点のフロンティアモデルがどこまで到達しているかを整理します。

コード生成能力の評価は2024年以降、HumanEval一本足から大きく変わりました。Chen et al. (2021) のHumanEval(164問)は、2024年時点でGPT-4やClaude 3.5 Sonnetがpass@1で90%を超え、事実上の飽和に達しました。本稿では後継ベンチマークの位置づけと、2026年時点での使い分けを整理します。

HumanEval+ (EvalPlus, Liu et al. 2023)

HumanEvalはテストケースが少なく、部分的に正しいコードでもpass扱いになる問題がありました。Liu et al. の EvalPlus は同じ問題に対して平均80倍以上のテストケースを追加し、pass@1スコアは概ね10〜20ポイント下がります。既存の fine-tune がHumanEvalで過学習していた場合、+では下落が大きく、真の汎化を測る指標として定着しました。

BigCodeBench (BigCode, Zhuo et al. 2024)

HumanEval系は標準ライブラリで完結する小規模関数が中心ですが、BigCodeBenchは139ライブラリを横断する1,140問で構成され、実務的なコード合成に近づいています。Instructサブセットは自然言語指示の曖昧性も含み、function-callingや複雑な依存関係を扱う能力を評価します。2026年時点でフロンティアモデルでも60%前後にとどまり、飽和にはまだ距離があります。

SWE-Bench Verified (Jimenez et al. 2024)

Jimenez et al. (2024) の SWE-Bench は GitHub issue から抽出した実リポジトリの修正タスクで、単一関数ではなくリポジトリ全体の理解を要します。オリジナルの2,294問のうち、OpenAI と原著者がラベル品質を検証した500問のサブセットが SWE-Bench Verified です。2024年末時点でトップモデルは約50%、2026年には70%台に達する報告もありますが、これはエージェントスキャフォールド込みの数字で、純粋なモデル能力とは切り分けが必要です。

使い分けの指針

(1) モデル選定の一次ふるい:HumanEval+(安く速い)。(2) ライブラリ活用力:BigCodeBench。(3) 実務エージェント能力:SWE-Bench Verified。(4) 社内固有ドメイン:自社リポジトリから派生させた社内ベンチ。

落とし穴と誠実な読み方

ベンチマーク数字は(a) スキャフォールド差(tool-use、retry、reflexion)、(b) テスト時サンプリング数(pass@1 vs pass@5)、(c) データ汚染(train時にテストセットを見ている疑い)で大きく変わります。プロバイダの発表数字を自社判断に直接使うのは危険で、重要な意思決定には自社環境で再現実験を推奨します。HumanEval+の公開コード(github.com/evalplus/evalplus)は再現が容易です。

2026年時点の総評

コード生成は「短い関数は解ける、長いリポジトリ改修はエージェント構造で部分的に解ける、未知ライブラリ活用は伸びしろあり」が現状です。ベンチマークスコアを鵜呑みにせず、自社タスクで独自評価を継続することが品質保証の基本線になります。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ