Skip to content
Quay lại danh sách bài viết
AI/AGI13 分

GPT-4 劣化論争の系譜:Stanford 2023 論文から 2026 年現在までの証拠整理

The GPT-4 Degradation Saga: From Stanford 2023 to 2026 Evidence

石田 遼介AI 品質リサーチエンジニア
2026-04-2313 分
LLM品質劣化ベンチマーク再現性

Bài viết này được đăng bằng tiếng Nhật. Tóm tắt tiếng Việt ở dưới:

The GPT-4 Degradation Saga: From Stanford 2023 to 2026 EvidenceChen/Zaharia らの 2023 年論文が火をつけた「GPT-4 は劣化しているのか」議論を、Narayanan/Kapoor の反論、2024-2026 年の追加証拠とともに整理し、エンジニアが自社評価で陥りがちな交絡因子を解剖する。

2023 年 7 月、議論の発端

Lingjiao Chen、Matei Zaharia、James Zou による Stanford の論文「How Is ChatGPT's Behavior Changing over Time?」が、GPT-4 の 2023 年 3 月版と 6 月版を 4 タスク(素数判定、コード生成、敏感質問、視覚推論)で比較し、素数判定の精度が 97.6% から 2.4% へ崩壊したと報告した。SNS では「劣化確定」と拡散され、OpenAI の Peter Welinder は「新バージョンを賢くしているが、各バージョンの能力を劣化させてはいない」と反論した。

Narayanan/Kapoor の方法論批判

Princeton の Arvind Narayanan と Sayash Kapoor は直後に反論記事を公開し、素数判定タスクがすべて「素数」の例で構成されており、6 月版は「合成数」と常に答えるように挙動が変わっただけで、能力の劣化ではなくフォーマット従順性の変化だと指摘した。つまり元論文は能力(capability)と挙動(behavior)を混同していたとされる。学術的コンセンサスは「挙動は変化した、能力劣化の証拠は限定的」に収束した。

2024-2026 年:計測フレームワークの成熟

  • 年以降、コミュニティは単発スナップショット比較の罠を避けるため、複数の対策を導入した。第一に LiveBench のような月次更新ベンチマークで汚染を避ける、第二に snapshot ID(gpt-4-0613、gpt-4o-2024-08-06 等)を必ず固定する、第三に温度・seed・システムプロンプトを版間で厳密に揃える、という三点セットである。2026 年現在、Anthropic、OpenAI、Google いずれも「既存スナップショットの重みは凍結、新挙動は新 ID」という方針を文書化していると報告される。

自社評価で陥る交絡因子

エンジニアが「最近精度が落ちた」と感じるときの典型的な交絡因子を列挙する。(1) モデル ID を `gpt-4` のようなエイリアスで指定し、裏で別スナップショットにルーティングされている。(2) システムプロンプトのデフォルトが API 側で変わった(安全層の注入等)。(3) 評価データが本番ログに引きずられ、分布がドリフトしている。(4) 温度が 0 でも tool use や JSON mode で非決定性が残る。(5) ユーザー側のプロンプトが知らぬ間に肥大化し、context rot 領域に入っている。

実務的な品質監視プロトコル

推奨する最小構成は、固定スナップショット ID、温度 0、seed 固定、100-300 件のゴールデンセットを週次で回し、精度・レイテンシ・トークン数・refusal 率を時系列で記録することだ。差分が 2σ を超えたときだけ人間がレビューに入る。この仕組みがないまま「劣化した気がする」で議論するのは、2023 年の失敗を繰り返すだけである。品質は測定インフラがあって初めて議論できる。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ