Skip to content
Kembali ke senarai artikel
AI/AGI15分

スケーリング則2020-2026: 何が保ち、何が崩れたか

Scaling Laws 2020-2026: What Held and What Diverged

三神 健吾Systems Research Analyst
2026-04-2415分
Scaling LawsKaplanChinchillaPost-trainingNarrative Criticism

Artikel ini diterbitkan dalam Bahasa Jepun. Ringkasan dalam Bahasa Melayu di bawah:

Scaling Laws 2020-2026: What Held and What DivergedKaplan 2020、Chinchilla 2022、そして post-training 時代の2026年。事前学習の法則は依然有効か、それとも既に別のゲームが始まっているのか。

スケーリング則という物語の始点

Jared Kaplan らが2020年に公開した "Scaling Laws for Neural Language Models" は、モデル規模・データ量・計算量と損失の関係を冪乗則で記述した論文であり、その後の業界投資行動の方位磁石となった。計算を2倍注げば損失がどれだけ下がるか、その関数が規則的に書ける、という主張は、スタートアップのピッチから政府の補助金設計まで深く浸透した。

  • 年、DeepMind の Jordan Hoffmann らが Chinchilla 論文で「従来のモデルはサイズに比べて学習データが不足していた」とする再配分の最適解を提案し、Kaplan の法則に修正が入った。同じ計算予算であれば、パラメータを半分にしてデータを倍にしたほうが良い、という結論は、その後の Llama 系・Mistral 系モデルの設計思想を強く方向づけた。

そして2026年、post-training(RLHF、RLAIF、SFT、DPO、プロセス報酬)の比重が事前学習を上回る領域が広がった現在、スケーリング則の物語は新しい段階に入っている。本稿では、2020-2026の6年間で何が生き残り、何が崩れたかを整理する。

保たれた部分: 事前学習の冪乗則

事前学習損失(クロスエントロピー)と計算量の関係は、条件を揃えれば依然として冪乗則に収まる、という観測は2026年時点でも強い。Chinchilla 的な最適データ配分の示唆も、一般則としては覆っていない。トークンを十分に注ぐこと、モデルサイズと比例関係を保つこと、この二点は現在でも設計原則として機能している。

ハードウェア効率の観点でも、FLOPs 投入量あたりの損失改善は、実装改善(分散訓練、データパイプライン、混合精度、最適化器)を織り込めば予測通りに進んでいる、との報告が複数の主要研究所から継続している。少なくとも「注いだ計算は無駄にならない」という大枠は崩れていない。

崩れた部分: 損失と「能力」の橋

一方で、2026年に明確になった綻びは、「事前学習損失の低下」と「下流タスクでの実用能力」の間の橋がきしみ始めた点である。post-training による能力獲得の寄与が増えるにつれて、事前学習損失の冪乗則から実用性能を予測する関数は、以前ほど滑らかでなくなった。

具体的には、同じ事前学習規模でも、RLHF の配合、プロセス報酬の設計、ツール使用の事後訓練の有無で、コード生成・数学推論・エージェント操作の性能が大きく振れる。Sutskever や Amodei らが public な場で「事前学習はコモディティ化し、差別化は post-training へ移る」という趣旨の発言をしている、と報告されている。少なくとも産業的な感覚としては、この移行は進行中だ。

新しいゲームの輪郭

  • 年現在、実務的に意味のあるスケーリング軸は三層に分かれている。第一層が従来の事前学習スケーリング、第二層が post-training 用の高品質データと報酬モデリングのスケーリング、第三層が推論時計算(chain-of-thought 長、ツール呼出回数、自己検証サイクル)のスケーリングである。o1 系・Claude の思考モード・Gemini thinking などは第三層を明示的に商品化した例として位置づけられる。

重要なのは、三層それぞれに別の冪乗則が走っている、という事実だ。事前学習の冪乗則と推論時計算の冪乗則は、観測される曲線の傾きも、コスト構造も、サチュレーション点も異なる。2020年の単一曲線で全体を語る言説は、もはや不十分である。

日本企業が誤解しやすい点

GPU 予算の議論をするとき、「大きければ賢い」という素朴な翻訳で意思決定する事例を見かける。だが2026年の現実はもっと立体的である。同じ予算でも、(a) 事前学習追加、(b) 高品質ドメインデータでの SFT、(c) 推論時計算の拡張、のどれに投資するかで ROI が二桁変わる場合がある。

KGA の社内実装方針としては、ドメイン特化の評価セットを先に固め、そのスコアが最も安く動く投資方向を特定する順序を推奨している。漠然と「パラメータを増やす」発注は、Kaplan 法則時代の神話の残響である。

物語としてのスケーリング則

スケーリング則は、科学的観測であると同時に、投資家・政府・世論へ向けた物語装置でもあった。「計算を注げば賢くなる」という単純な一行は、数十億ドル規模の資本移動を正当化するのに十分な文法だった。その文法がもはや単独では成立しない、というのが2026年の静かな風景である。

冪乗則そのものは生きている。ただし、複数の曲線が絡み合う多層ゲームになった。次世代の経営判断は、どの層にどれだけ配分するかという、もう一段面倒な問題に戻ってきている。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ