합성 데이터 시대의 도래
- 년의 오픈 LLM 파인튜닝 사정은 2023~2024년의 "사람 어노테이션 중심"에서 "교사 모델에 의한 합성 데이터 중심"으로 완전히 패러다임이 전환되었습니다. Claude Opus 4.7, GPT-5, Gemini 2.5 Ultra 같은 최첨단 클로즈드 모델에서 "증류"한 고품질 데이터셋이 공개되어, 7B~13B급 베이스 모델에서도 2024년의 70B 상당의 지시 추종 능력을 획득할 수 있게 되었습니다.
본고에서는 2026년 4월 시점의 베스트 프랙티스를 데이터 생성, 알고리즘, 일본어 특화, 재현 레시피, 윤리의 5가지 축으로 정리합니다.
교사 모델 증류의 표준 절차
Microsoft의 Phi 시리즈가 개척한 "textbook-quality data" 철학은 2026년에 더욱 세련되었습니다. Phi-5 / Phi-5-mini의 레시피를 추시한 커뮤니티 데이터셋에서는 다음 파이프라인이 표준화되어 있습니다.
- 종 데이터 추출: Common Crawl + GitHub + arXiv + Stack Exchange에서 품질 점수 상위 5%를 추출
- 교사 모델에 의한 질문 생성: Claude Opus 4.7에 "이 문서에 대해 대학원생이 물어볼 법한 질문을 10개"
- CoT 부 답변 생성: GPT-5로 추론 과정이 포함된 답변을 생성, 자기 일관성 체크
- 난이도 밸런싱: 쉬움·보통·어려움을 3:5:2로 혼합, 길이는 200~4000토큰
- 리젝션 샘플링: 별도 교사로 채점, 하위 30%를 제외
- 년 3월 공개된 MAP-Neo-v2 데이터셋(2.1T토큰, CC-BY-4.0)은 이 파이프라인으로 구축된 일영중 다국어 코퍼스로, Llama 3 8B 베이스의 계속 사전 학습에 30억 엔 상당의 계산 비용이 소요된 성과가 무상 배포되고 있습니다.
DPO / IPO / KTO의 구분 사용
선호 학습 알고리즘은 RLHF 시대를 거쳐, 계산량이 적은 오프라인 방식이 주류가 되었습니다. 2026년 시점에서의 구분 사용은 다음과 같습니다.
- DPO (Direct Preference Optimization): 쌍 선호 데이터가 풍부한 경우의 첫 번째 선택. 구현이 단순하고, PPO 대비 계산 비용 1/5. 단, 보상 해킹 내성은 PPO보다 약합니다.
- IPO (Identity Preference Optimization): DPO의 과학습 문제를 이론적으로 해소. 특히 소규모 데이터셋(1만 쌍 이하)에서 DPO를 능가합니다.
- KTO (Kahneman-Tversky Optimization): 쌍 불필요, "좋음/나쁨"의 이진 라벨만으로 학습 가능. 사용자의 thumbs up/down 로그를 직접 활용할 수 있는 실무적 메리트가 큽니다.
- SimPO: 참조 모델 불필요로 DPO를 개선. 메모리 사용 40% 절감, 성능 유지. 2026년의 표준에 근접하고 있습니다.
- RLAIF (AI Feedback): 사람 라벨러를 Claude / GPT로 대체. 비용 1/100, 품질은 사람의 95%.
```yaml # axolotl에서의 SimPO 설정 예 (Qwen 3 7B 베이스) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```
일본어 특화 모델의 도달점
일본어 LLM은 2026년에 들어 해외 베이스 모델에 대한 계속 학습 루트가 결정적으로 우세해졌습니다. 주요 3계열의 최신 상황을 정리합니다.
Swallow v3 (도쿄과학대): Llama 4 70B 베이스의 계속 사전 학습 + 지시 튜닝. 일본어 코퍼스 600B토큰 추가, JMT-Bench 8.52, Jaster 77.4. 연구용도 무상, 상업용은 Llama 4 Community License 준수.
Rinna Nekomata-2 (rinna): Qwen 3 72B 베이스, 상업적 이용 가능한 Apache 2.0. 경어·겸양어·비즈니스 문서의 유창성에서 Swallow를 능가, JMT-Bench 8.47.
Sarashina 2.5 (SB Intuitions): 스크래치 학습 + Llama 4 증류의 하이브리드. 405B와 70B 두 가지 사이즈. 국산 주권 AI의 선두주자로, 금융·의료·지자체 도입 실적이 급증하고 있습니다.
- 년의 중요 트렌드는, 일본어 특화 모델이 "베이스 선택 × 일본어 합성 데이터 × 경량 선호 학습"의 3단계로 분해되어, axolotl의 YAML 수백 줄로 누구나 재현할 수 있는 수준이 된 점입니다.
재현 가능한 레시피: axolotl × unsloth
unsloth는 2026년판에서 QLoRA의 메모리 효율을 4.2배 개선하여, RTX 4090 1장으로 70B QLoRA를 실행할 수 있는 수준에 도달했습니다. axolotl은 분산 학습과 선호 학습 모두에 대응하며, 멀티 노드·멀티 GPU 구성에서의 재현성이 높습니다.
전형적인 일본어 지시 튜닝의 재현 절차는 다음과 같습니다.
- 베이스 모델 선택 (Qwen 3 7B Base)
- 일본어 합성 데이터 50만 건 (Claude Opus 4.7 증류, CC-BY-4.0)
- unsloth + QLoRA r=128, 3 epoch, 3090 1장으로 18시간
- SimPO 단계: rinna/ultrafeedback-ja 10만 쌍, 4090 1장으로 6시간
- 평가: JMT-Bench, Jaster, elyza-tasks-100
총 비용 클라우드 환산 약 $180 정도로, 2024년의 상용 API를 능가하는 일본어 모델을 만들 수 있는 시대가 되었습니다.
윤리와 데이터 래선스
강조해야 할 것은 데이터 래선스(data provenance)의 중요성입니다. 합성 데이터라 하더라도, 교사 모델의 출력에는 학습 원본 데이터의 저작권이 그림자를 드리웁니다. 2026년 EU AI Act 시행 후, 유럽 전개를 상정하는 모델은 다음을 문서화할 의무가 있습니다.
- 종 데이터의 라이선스 목록 (robots.txt 준수 여부)
- 교사 모델의 ToS와 파생 저작물 조항
- PII(개인 식별 정보) 제거 방법과 필터 정밀도
- 편향 평가 (BBQ-ja, StereoSet-ja 등)
- "잊혀질 권리" 대응 절차
Hugging Face는 2026년 3월에 Dataset Cards v2를 필수화하여, 위 항목 기재가 없는 데이터셋은 downloads 표시에서 제외되게 되었습니다. 상업적으로 이용한다면 래선스 문서화는 투자 대비 효과가 높은 시책입니다.
2026년 하반기의 주목 포인트
자기 개선 루프(self-play / self-reward)가 연구에서 실용 단계로 이행하고 있습니다. Meta의 Self-Rewarding Language Models의 후속작, Anthropic Constitutional AI의 공개 구현, 그리고 일본 발의 "Constitutional AI 일본어판"의 등장이 기대됩니다. 파인튜닝 전문가는 알고리즘 자체보다 데이터 설계와 평가 설계의 역량으로 차이가 나는 시대에 접어들었습니다.