公称コンテキスト長と実効コンテキスト長のギャップ
- 年、フロンティアモデルの多くが 1M トークン級のコンテキストウィンドウを提供するが、実効的な品質が保たれる長さはずっと短いと報告される。この乖離は「context rot」と呼ばれ、トークン数が増えるにつれ事実照合、推論、指示追従の精度が緩やかに、ときに急激に落ちる現象だ。
Liu 2023:Lost in the Middle
Nelson Liu らの「Lost in the Middle: How Language Models Use Long Contexts」(2023)は、関連文書を文脈の先頭・中央・末尾に配置して QA 精度を測り、中央に置いたときに最も精度が落ちる U 字カーブを示した。この知見は単純ながら強力で、RAG で取得した文書の順序設計に直接影響する。高関連文書を先頭か末尾に置く「再順序付け」は、この論文以降標準化された。
NIAH の欺瞞性
Needle-in-a-Haystack(NIAH)は長文に無関係な文を埋め込み「The best thing to do in San Francisco is...」のような短い事実を探させる。これは多くのモデルが 1M トークンでもほぼ満点に近い成績を出すため、長文脈の品質が解決済みであるかのような錯覚を生んだ。しかし NIAH は (a) 事実が 1 つだけ、(b) 干し草と針の語彙が明確に違う、(c) 推論が不要、という三重の簡単さがあった。
RULER が示した本当の姿
NVIDIA の Hsieh らが 2024 年に発表した RULER は、(1) 複数 needle、(2) 分散配置、(3) 変数追跡(variable tracking)、(4) 集約クエリ、(5) 頻度計数の 13 タスクで長文脈を評価する。結果、公称 128K 以上を謳うモデルでも、実効的に 90%+ 精度を保つのはずっと短い範囲に留まると報告される。RULER 以降「有効コンテキスト長」という概念が一般化し、ベンダーも NIAH 単独のスコアで宣伝しにくくなった。
2026 年の実務設計指針
長文脈モデルを使うとき、以下を徹底する。第一に、文脈が長いほど賢くなるという直感を捨てる。必要最小限の文脈に圧縮する方が、情報量の多い文脈を丸投げするより精度が高い場合が多い。第二に、RAG で取得したチャンクは関連度順に再配置し、最重要を先頭か末尾に寄せる。第三に、context rot の測定は自社ドメインで行う。公開ベンチマークの結果は語彙・タスクの分布が違うため、そのまま転用できない。第四に、50K を超えたあたりから chunked reasoning(部分回答 → 統合)に切り替え、単一プロンプトで完結させる誘惑に抗う。コンテキストは長ければ良いのではなく、信号対雑音比が高いほど良い、という基本に立ち返るべきだ。