合成データ時代の到来
- 年のオープンLLMファインチューニング事情は、2023〜2024年の「人手アノテーション中心」から「教師モデルによる合成データ中心」へと完全にパラダイム転換した。Claude Opus 4.7、GPT-5、Gemini 2.5 Ultra といった最先端クローズドモデルから「蒸留」した高品質データセットが公開され、7B〜13B級のベースモデルでも 2024年の 70B 相当の指示追従能力を獲得できるようになっている。
本稿では 2026年4月時点のベストプラクティスを、データ生成、アルゴリズム、日本語特化、再現レシピ、倫理の5軸で整理する。
教師モデル蒸留の標準手順
Microsoft の Phi シリーズが開拓した「textbook-quality data」哲学は 2026年にさらに洗練された。Phi-5 / Phi-5-mini のレシピを追試したコミュニティデータセットでは、以下のパイプラインが標準化している。
- 種データ抽出: Common Crawl + GitHub + arXiv + Stack Exchange から品質スコア上位 5% を抽出
- 教師モデルによる質問生成: Claude Opus 4.7 に「この文書について大学院生が尋ねそうな質問を10件」
- CoT 付き回答生成: GPT-5 で推論過程込みの回答を生成、自己整合性チェック
- 難易度バランシング: 易・中・難を 3:5:2 で混合、長さは 200〜4000 トークン
- リジェクションサンプリング: 別教師で採点、下位 30% を除外
- 年3月公開の MAP-Neo-v2 データセット (2.1T トークン、CC-BY-4.0) はこのパイプラインで構築された日英中多言語コーパスで、Llama 3 8B ベースでの継続事前学習に 30億円相当の計算コストを要した成果が無償配布されている。
DPO / IPO / KTO の使い分け
選好学習アルゴリズムは RLHF 時代を経て、計算量の軽いオフライン手法が主流となった。2026年時点での使い分けは以下の通り。
- DPO (Direct Preference Optimization): ペア選好データが豊富な場合の第一選択。実装単純、PPO比で計算コスト 1/5。ただし報酬ハッキング耐性は PPO より弱い。
- IPO (Identity Preference Optimization): DPO の過学習問題を理論的に解消。特に小規模データセット(1万ペア以下)で DPO を上回る。
- KTO (Kahneman-Tversky Optimization): ペア不要、「良い/悪い」の二値ラベルのみで学習可能。ユーザーの thumbs up/down ログを直接活用できる実務的なメリット大。
- SimPO: 参照モデル不要で DPO を改良。メモリ使用 40% 削減、性能維持。2026年の標準に近づいている。
- RLAIF (AI Feedback): 人間ラベラーを Claude / GPT で置換。コスト 1/100、品質は人手の 95%。
```yaml # axolotl での SimPO 設定例 (Qwen 3 7B ベース) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```
日本語特化モデルの到達点
日本語 LLM は 2026年に入り、海外ベースモデルへの継続学習ルートが決定的に優勢となった。主要3系統の最新状況を整理する。
Swallow v3 (東京科学大): Llama 4 70B ベースの継続事前学習 + 指示チューニング。日本語コーパス 600B トークン追加、JMT-Bench 8.52、Jaster 77.4。研究用途無償、商用は Llama 4 Community License 準拠。
Rinna Nekomata-2 (rinna社): Qwen 3 72B ベース、商用利用可の Apache 2.0。敬語・謙譲語・ビジネス文書の流暢性で Swallow 超え、JMT-Bench 8.47。
Sarashina 2.5 (SB Intuitions): スクラッチ学習 + Llama 4 蒸留のハイブリッド。405B と 70B の2サイズ。国産主権 AI の旗頭として、金融・医療・自治体導入実績が急増。
- 年の重要トレンドは、日本語特化モデルが「ベース選択 × 日本語合成データ × 軽量選好学習」の3段階に分解され、axolotl の YAML 数百行で誰でも再現できるレベルになった点である。
再現可能レシピ: axolotl × unsloth
unsloth は 2026年版で QLoRA のメモリ効率を 4.2倍改善、RTX 4090 1枚で 70B QLoRA が回せる水準に到達した。axolotl は分散学習と選好学習の両対応で、マルチノード・マルチGPU構成での再現性が高い。
典型的な日本語指示チューニングの再現手順は以下。
- ベースモデル選択 (Qwen 3 7B Base)
- 日本語合成データ 50万件 (Claude Opus 4.7 蒸留、CC-BY-4.0)
- unsloth + QLoRA r=128、3 epoch、3090 1枚で 18時間
- SimPO 段階: rinna/ultrafeedback-ja 10万ペア、4090 1枚で 6時間
- 評価: JMT-Bench、Jaster、elyza-tasks-100
総コスト クラウド換算 $180 程度で、2024年の商用API越え日本語モデルが作れる時代になった。
倫理とデータ来歴
強調すべきは データ来歴 (data provenance) の重要性だ。合成データであっても、教師モデルの出力には学習元データの著作権が影を落とす。2026年の EU AI Act 施行後、欧州展開を想定するモデルは以下を文書化する義務がある。
- 種データのライセンス一覧 (robots.txt 尊重の有無)
- 教師モデルの ToS と派生作品条項
- PII (個人識別情報) 除去手法とフィルタ精度
- バイアス評価 (BBQ-ja、StereoSet-ja 等)
- 「忘れられる権利」対応手順
Hugging Face は 2026年 3月に Dataset Cards v2 を必須化し、上記項目の記載なきデータセットは downloads 表示から除外されるようになった。商用利用するなら来歴文書化は投資対効果の高い施策である。
2026年後半の注目点
自己改善ループ (self-play / self-reward) が研究から実用段階に移行しつつある。Meta の Self-Rewarding Language Models の後継、Anthropic Constitutional AI の公開実装、そして日本発の「憲法AI日本語版」の登場が期待される。ファインチューニング職人は、アルゴリズムそのものよりも データ設計と評価設計 の力量で差が付く時代に入った。