Skip to content
Quay lại danh sách bài viết
AI/AGI14分

オープンLLMファインチューニングの現在地 2026: 合成データ・DPO派生・日本語特化まで

Open LLM Fine-Tuning 2026: Synthetic Data, DPO Variants, Japanese-Specific Models

山本 健一Applied Research Lead
2026-04-2214分
Fine-TuningDPOSynthetic DataJapanese LLMaxolotl

Bài viết này được đăng bằng tiếng Nhật. Tóm tắt tiếng Việt ở dưới:

Open LLM Fine-Tuning 2026: Synthetic Data, DPO Variants, Japanese-Specific Models2026年のファインチューニングは合成データと DPO/IPO/KTO が主役。Claude Opus 4.7 による教師蒸留、Phi レシピ、Swallow・Rinna・Sarashina、axolotl/unsloth の再現可能レシピを解説。

合成データ時代の到来

  • 年のオープンLLMファインチューニング事情は、2023〜2024年の「人手アノテーション中心」から「教師モデルによる合成データ中心」へと完全にパラダイム転換した。Claude Opus 4.7、GPT-5、Gemini 2.5 Ultra といった最先端クローズドモデルから「蒸留」した高品質データセットが公開され、7B〜13B級のベースモデルでも 2024年の 70B 相当の指示追従能力を獲得できるようになっている。

本稿では 2026年4月時点のベストプラクティスを、データ生成、アルゴリズム、日本語特化、再現レシピ、倫理の5軸で整理する。

教師モデル蒸留の標準手順

Microsoft の Phi シリーズが開拓した「textbook-quality data」哲学は 2026年にさらに洗練された。Phi-5 / Phi-5-mini のレシピを追試したコミュニティデータセットでは、以下のパイプラインが標準化している。

  • 種データ抽出: Common Crawl + GitHub + arXiv + Stack Exchange から品質スコア上位 5% を抽出
  • 教師モデルによる質問生成: Claude Opus 4.7 に「この文書について大学院生が尋ねそうな質問を10件」
  • CoT 付き回答生成: GPT-5 で推論過程込みの回答を生成、自己整合性チェック
  • 難易度バランシング: 易・中・難を 3:5:2 で混合、長さは 200〜4000 トークン
  • リジェクションサンプリング: 別教師で採点、下位 30% を除外
  • 年3月公開の MAP-Neo-v2 データセット (2.1T トークン、CC-BY-4.0) はこのパイプラインで構築された日英中多言語コーパスで、Llama 3 8B ベースでの継続事前学習に 30億円相当の計算コストを要した成果が無償配布されている。

DPO / IPO / KTO の使い分け

選好学習アルゴリズムは RLHF 時代を経て、計算量の軽いオフライン手法が主流となった。2026年時点での使い分けは以下の通り。

  • DPO (Direct Preference Optimization): ペア選好データが豊富な場合の第一選択。実装単純、PPO比で計算コスト 1/5。ただし報酬ハッキング耐性は PPO より弱い。
  • IPO (Identity Preference Optimization): DPO の過学習問題を理論的に解消。特に小規模データセット(1万ペア以下)で DPO を上回る。
  • KTO (Kahneman-Tversky Optimization): ペア不要、「良い/悪い」の二値ラベルのみで学習可能。ユーザーの thumbs up/down ログを直接活用できる実務的なメリット大。
  • SimPO: 参照モデル不要で DPO を改良。メモリ使用 40% 削減、性能維持。2026年の標準に近づいている。
  • RLAIF (AI Feedback): 人間ラベラーを Claude / GPT で置換。コスト 1/100、品質は人手の 95%。

```yaml # axolotl での SimPO 設定例 (Qwen 3 7B ベース) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```

日本語特化モデルの到達点

日本語 LLM は 2026年に入り、海外ベースモデルへの継続学習ルートが決定的に優勢となった。主要3系統の最新状況を整理する。

Swallow v3 (東京科学大): Llama 4 70B ベースの継続事前学習 + 指示チューニング。日本語コーパス 600B トークン追加、JMT-Bench 8.52、Jaster 77.4。研究用途無償、商用は Llama 4 Community License 準拠。

Rinna Nekomata-2 (rinna社): Qwen 3 72B ベース、商用利用可の Apache 2.0。敬語・謙譲語・ビジネス文書の流暢性で Swallow 超え、JMT-Bench 8.47。

Sarashina 2.5 (SB Intuitions): スクラッチ学習 + Llama 4 蒸留のハイブリッド。405B と 70B の2サイズ。国産主権 AI の旗頭として、金融・医療・自治体導入実績が急増。

  • 年の重要トレンドは、日本語特化モデルが「ベース選択 × 日本語合成データ × 軽量選好学習」の3段階に分解され、axolotl の YAML 数百行で誰でも再現できるレベルになった点である。

再現可能レシピ: axolotl × unsloth

unsloth は 2026年版で QLoRA のメモリ効率を 4.2倍改善、RTX 4090 1枚で 70B QLoRA が回せる水準に到達した。axolotl は分散学習と選好学習の両対応で、マルチノード・マルチGPU構成での再現性が高い。

典型的な日本語指示チューニングの再現手順は以下。

  • ベースモデル選択 (Qwen 3 7B Base)
  • 日本語合成データ 50万件 (Claude Opus 4.7 蒸留、CC-BY-4.0)
  • unsloth + QLoRA r=128、3 epoch、3090 1枚で 18時間
  • SimPO 段階: rinna/ultrafeedback-ja 10万ペア、4090 1枚で 6時間
  • 評価: JMT-Bench、Jaster、elyza-tasks-100

総コスト クラウド換算 $180 程度で、2024年の商用API越え日本語モデルが作れる時代になった。

倫理とデータ来歴

強調すべきは データ来歴 (data provenance) の重要性だ。合成データであっても、教師モデルの出力には学習元データの著作権が影を落とす。2026年の EU AI Act 施行後、欧州展開を想定するモデルは以下を文書化する義務がある。

  • 種データのライセンス一覧 (robots.txt 尊重の有無)
  • 教師モデルの ToS と派生作品条項
  • PII (個人識別情報) 除去手法とフィルタ精度
  • バイアス評価 (BBQ-ja、StereoSet-ja 等)
  • 「忘れられる権利」対応手順

Hugging Face は 2026年 3月に Dataset Cards v2 を必須化し、上記項目の記載なきデータセットは downloads 表示から除外されるようになった。商用利用するなら来歴文書化は投資対効果の高い施策である。

2026年後半の注目点

自己改善ループ (self-play / self-reward) が研究から実用段階に移行しつつある。Meta の Self-Rewarding Language Models の後継、Anthropic Constitutional AI の公開実装、そして日本発の「憲法AI日本語版」の登場が期待される。ファインチューニング職人は、アルゴリズムそのものよりも データ設計と評価設計 の力量で差が付く時代に入った。

技術的な課題を一緒に解決しませんか?

KGA IT Solutionsは、AI・クラウド・DevOpsの専門チームがお客様の課題に最適なソリューションを提供します。

お問い合わせ