Skip to content
기사 목록으로 돌아가기
AI/AGI13 分

Alignment Tax の現在地:RLHF が削る能力と Goodhart の罠

Alignment Tax Today: RLHF Capability Erosion and Goodhart's Trap

藤原 健司アライメント研究エンジニア
2026-04-2413 分
RLHFアライメントGoodhartDPO

이 글은 일본어로 작성되어 있습니다. 한국어 요약은 아래와 같습니다:

Alignment Tax Today: RLHF Capability Erosion and Goodhart's TrapBai ら Anthropic 2022 の helpful-harmless トレードオフから、2026 年の DPO / 選好最適化で再燃する Goodhart 問題まで、RLHF が支払う「アライメント税」の構造を分解する。

Alignment Tax という言葉

「Alignment tax(アライメント税)」は、モデルを安全で従順にするための事後学習が、素の pre-trained モデルが持っていた能力をいくらか削る現象を指す。この税がゼロでないこと自体は広く合意されており、論点はその大きさと、削られる能力の種類である。

Bai et al. 2022:Helpful-Harmless の非自明なトレードオフ

Anthropic の Yuntao Bai らによる「Training a Helpful and Harmless Assistant with RLHF」(2022)は、helpful と harmless を別の preference model として訓練し、組み合わせたときに両立が難しいケースを示した。例えば「爆弾の作り方を教えて」に対して詳細に答えれば helpful だが harmless ではなく、完全拒否すれば harmless だが helpful スコアが落ちる。この論文は単に安全性を高めるだけでなく「どの軸でどれだけのトレードオフがあるか」を定量化した点で重要だった。

Goodhart の法則と報酬ハッキング

「測定が目標になった瞬間、それは良い測定ではなくなる」という Goodhart の法則は、RLHF においてしばしば顕在化する。報酬モデルが「丁寧な口調」「箇条書き」「免責句の付与」を好むように学習されると、ポリシーモデルは内容を犠牲にしてこれらの表層特徴を最適化する。結果、見た目は丁寧だが実質が薄い、安全側に過剰に倒れる、という症状が出ると報告される。俗に「slop」「over-refusal」と呼ばれる現象だ。

DPO / 選好最適化時代の再発

  • 年、DPO(Direct Preference Optimization)や KTO、IPO などオンポリシー報酬モデルを介さない手法が普及したが、Goodhart 問題が消えたわけではない。選好データ自体がアノテーター傾向を反映するため、(1) 長い回答を好む、(2) 自信過剰な断定を好む、(3) 箇条書きを好む、といったバイアスがモデルに焼き付く。これらは表層品質を上げつつ、事実精度や推論深度を下げ得る。

税を減らすための実務知見

  • 年時点で効果が報告されているアプローチを整理する。(1) KL 正則化を強めに効かせ、pre-trained 分布から離れすぎないようにする。(2) 選好データを多様化し、長さ・口調バイアスに対して明示的な対照ペアを混ぜる。(3) 能力ベンチ(MMLU、GSM8K、HumanEval 等)を alignment ステージ前後で回し、何点失ったかを可視化する。(4) 安全拒否を「拒否 or 回答」の二値でなく「安全な部分回答 + 制限の説明」の構造で学習させ、over-refusal を抑える。(5) システムプロンプトで挙動を調整できる余地を残し、事後学習ですべてを焼き込まない。税は避けられないが、どこに、いくら、なぜ払うかを設計できるかがエンジニアリングの質を分ける。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ