2023 年 7 月、議論の発端
Lingjiao Chen、Matei Zaharia、James Zou による Stanford の論文「How Is ChatGPT's Behavior Changing over Time?」が、GPT-4 の 2023 年 3 月版と 6 月版を 4 タスク(素数判定、コード生成、敏感質問、視覚推論)で比較し、素数判定の精度が 97.6% から 2.4% へ崩壊したと報告した。SNS では「劣化確定」と拡散され、OpenAI の Peter Welinder は「新バージョンを賢くしているが、各バージョンの能力を劣化させてはいない」と反論した。
Narayanan/Kapoor の方法論批判
Princeton の Arvind Narayanan と Sayash Kapoor は直後に反論記事を公開し、素数判定タスクがすべて「素数」の例で構成されており、6 月版は「合成数」と常に答えるように挙動が変わっただけで、能力の劣化ではなくフォーマット従順性の変化だと指摘した。つまり元論文は能力(capability)と挙動(behavior)を混同していたとされる。学術的コンセンサスは「挙動は変化した、能力劣化の証拠は限定的」に収束した。
2024-2026 年:計測フレームワークの成熟
- 年以降、コミュニティは単発スナップショット比較の罠を避けるため、複数の対策を導入した。第一に LiveBench のような月次更新ベンチマークで汚染を避ける、第二に snapshot ID(gpt-4-0613、gpt-4o-2024-08-06 等)を必ず固定する、第三に温度・seed・システムプロンプトを版間で厳密に揃える、という三点セットである。2026 年現在、Anthropic、OpenAI、Google いずれも「既存スナップショットの重みは凍結、新挙動は新 ID」という方針を文書化していると報告される。
自社評価で陥る交絡因子
エンジニアが「最近精度が落ちた」と感じるときの典型的な交絡因子を列挙する。(1) モデル ID を `gpt-4` のようなエイリアスで指定し、裏で別スナップショットにルーティングされている。(2) システムプロンプトのデフォルトが API 側で変わった(安全層の注入等)。(3) 評価データが本番ログに引きずられ、分布がドリフトしている。(4) 温度が 0 でも tool use や JSON mode で非決定性が残る。(5) ユーザー側のプロンプトが知らぬ間に肥大化し、context rot 領域に入っている。
実務的な品質監視プロトコル
推奨する最小構成は、固定スナップショット ID、温度 0、seed 固定、100-300 件のゴールデンセットを週次で回し、精度・レイテンシ・トークン数・refusal 率を時系列で記録することだ。差分が 2σ を超えたときだけ人間がレビューに入る。この仕組みがないまま「劣化した気がする」で議論するのは、2023 年の失敗を繰り返すだけである。品質は測定インフラがあって初めて議論できる。