Alignment Tax という言葉
「Alignment tax(アライメント税)」は、モデルを安全で従順にするための事後学習が、素の pre-trained モデルが持っていた能力をいくらか削る現象を指す。この税がゼロでないこと自体は広く合意されており、論点はその大きさと、削られる能力の種類である。
Bai et al. 2022:Helpful-Harmless の非自明なトレードオフ
Anthropic の Yuntao Bai らによる「Training a Helpful and Harmless Assistant with RLHF」(2022)は、helpful と harmless を別の preference model として訓練し、組み合わせたときに両立が難しいケースを示した。例えば「爆弾の作り方を教えて」に対して詳細に答えれば helpful だが harmless ではなく、完全拒否すれば harmless だが helpful スコアが落ちる。この論文は単に安全性を高めるだけでなく「どの軸でどれだけのトレードオフがあるか」を定量化した点で重要だった。
Goodhart の法則と報酬ハッキング
「測定が目標になった瞬間、それは良い測定ではなくなる」という Goodhart の法則は、RLHF においてしばしば顕在化する。報酬モデルが「丁寧な口調」「箇条書き」「免責句の付与」を好むように学習されると、ポリシーモデルは内容を犠牲にしてこれらの表層特徴を最適化する。結果、見た目は丁寧だが実質が薄い、安全側に過剰に倒れる、という症状が出ると報告される。俗に「slop」「over-refusal」と呼ばれる現象だ。
DPO / 選好最適化時代の再発
- 年、DPO(Direct Preference Optimization)や KTO、IPO などオンポリシー報酬モデルを介さない手法が普及したが、Goodhart 問題が消えたわけではない。選好データ自体がアノテーター傾向を反映するため、(1) 長い回答を好む、(2) 自信過剰な断定を好む、(3) 箇条書きを好む、といったバイアスがモデルに焼き付く。これらは表層品質を上げつつ、事実精度や推論深度を下げ得る。
税を減らすための実務知見
- 年時点で効果が報告されているアプローチを整理する。(1) KL 正則化を強めに効かせ、pre-trained 分布から離れすぎないようにする。(2) 選好データを多様化し、長さ・口調バイアスに対して明示的な対照ペアを混ぜる。(3) 能力ベンチ(MMLU、GSM8K、HumanEval 等)を alignment ステージ前後で回し、何点失ったかを可視化する。(4) 安全拒否を「拒否 or 回答」の二値でなく「安全な部分回答 + 制限の説明」の構造で学習させ、over-refusal を抑える。(5) システムプロンプトで挙動を調整できる余地を残し、事後学習ですべてを焼き込まない。税は避けられないが、どこに、いくら、なぜ払うかを設計できるかがエンジニアリングの質を分ける。