본문으로 이동
기사 목록으로 돌아가기
AI/AGI14分

오픈 LLM 파인튜닝 2026: 합성 데이터·DPO 변형·일본어 특화 모델

Open LLM Fine-Tuning 2026: Synthetic Data, DPO Variants, Japanese-Specific Models

山本 健一Applied Research Lead
2026-04-2214分
Fine-TuningDPOSynthetic DataJapanese LLMaxolotl

합성 데이터 시대의 도래

  • 년의 오픈 LLM 파인튜닝 사정은 2023~2024년의 "사람 어노테이션 중심"에서 "교사 모델에 의한 합성 데이터 중심"으로 완전히 패러다임이 전환되었습니다. Claude Opus 4.7, GPT-5, Gemini 2.5 Ultra 같은 최첨단 클로즈드 모델에서 "증류"한 고품질 데이터셋이 공개되어, 7B~13B급 베이스 모델에서도 2024년의 70B 상당의 지시 추종 능력을 획득할 수 있게 되었습니다.

본고에서는 2026년 4월 시점의 베스트 프랙티스를 데이터 생성, 알고리즘, 일본어 특화, 재현 레시피, 윤리의 5가지 축으로 정리합니다.

교사 모델 증류의 표준 절차

Microsoft의 Phi 시리즈가 개척한 "textbook-quality data" 철학은 2026년에 더욱 세련되었습니다. Phi-5 / Phi-5-mini의 레시피를 추시한 커뮤니티 데이터셋에서는 다음 파이프라인이 표준화되어 있습니다.

  • 종 데이터 추출: Common Crawl + GitHub + arXiv + Stack Exchange에서 품질 점수 상위 5%를 추출
  • 교사 모델에 의한 질문 생성: Claude Opus 4.7에 "이 문서에 대해 대학원생이 물어볼 법한 질문을 10개"
  • CoT 부 답변 생성: GPT-5로 추론 과정이 포함된 답변을 생성, 자기 일관성 체크
  • 난이도 밸런싱: 쉬움·보통·어려움을 3:5:2로 혼합, 길이는 200~4000토큰
  • 리젝션 샘플링: 별도 교사로 채점, 하위 30%를 제외
  • 년 3월 공개된 MAP-Neo-v2 데이터셋(2.1T토큰, CC-BY-4.0)은 이 파이프라인으로 구축된 일영중 다국어 코퍼스로, Llama 3 8B 베이스의 계속 사전 학습에 30억 엔 상당의 계산 비용이 소요된 성과가 무상 배포되고 있습니다.

DPO / IPO / KTO의 구분 사용

선호 학습 알고리즘은 RLHF 시대를 거쳐, 계산량이 적은 오프라인 방식이 주류가 되었습니다. 2026년 시점에서의 구분 사용은 다음과 같습니다.

  • DPO (Direct Preference Optimization): 쌍 선호 데이터가 풍부한 경우의 첫 번째 선택. 구현이 단순하고, PPO 대비 계산 비용 1/5. 단, 보상 해킹 내성은 PPO보다 약합니다.
  • IPO (Identity Preference Optimization): DPO의 과학습 문제를 이론적으로 해소. 특히 소규모 데이터셋(1만 쌍 이하)에서 DPO를 능가합니다.
  • KTO (Kahneman-Tversky Optimization): 쌍 불필요, "좋음/나쁨"의 이진 라벨만으로 학습 가능. 사용자의 thumbs up/down 로그를 직접 활용할 수 있는 실무적 메리트가 큽니다.
  • SimPO: 참조 모델 불필요로 DPO를 개선. 메모리 사용 40% 절감, 성능 유지. 2026년의 표준에 근접하고 있습니다.
  • RLAIF (AI Feedback): 사람 라벨러를 Claude / GPT로 대체. 비용 1/100, 품질은 사람의 95%.

```yaml # axolotl에서의 SimPO 설정 예 (Qwen 3 7B 베이스) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```

일본어 특화 모델의 도달점

일본어 LLM은 2026년에 들어 해외 베이스 모델에 대한 계속 학습 루트가 결정적으로 우세해졌습니다. 주요 3계열의 최신 상황을 정리합니다.

Swallow v3 (도쿄과학대): Llama 4 70B 베이스의 계속 사전 학습 + 지시 튜닝. 일본어 코퍼스 600B토큰 추가, JMT-Bench 8.52, Jaster 77.4. 연구용도 무상, 상업용은 Llama 4 Community License 준수.

Rinna Nekomata-2 (rinna): Qwen 3 72B 베이스, 상업적 이용 가능한 Apache 2.0. 경어·겸양어·비즈니스 문서의 유창성에서 Swallow를 능가, JMT-Bench 8.47.

Sarashina 2.5 (SB Intuitions): 스크래치 학습 + Llama 4 증류의 하이브리드. 405B와 70B 두 가지 사이즈. 국산 주권 AI의 선두주자로, 금융·의료·지자체 도입 실적이 급증하고 있습니다.

  • 년의 중요 트렌드는, 일본어 특화 모델이 "베이스 선택 × 일본어 합성 데이터 × 경량 선호 학습"의 3단계로 분해되어, axolotl의 YAML 수백 줄로 누구나 재현할 수 있는 수준이 된 점입니다.

재현 가능한 레시피: axolotl × unsloth

unsloth는 2026년판에서 QLoRA의 메모리 효율을 4.2배 개선하여, RTX 4090 1장으로 70B QLoRA를 실행할 수 있는 수준에 도달했습니다. axolotl은 분산 학습과 선호 학습 모두에 대응하며, 멀티 노드·멀티 GPU 구성에서의 재현성이 높습니다.

전형적인 일본어 지시 튜닝의 재현 절차는 다음과 같습니다.

  • 베이스 모델 선택 (Qwen 3 7B Base)
  • 일본어 합성 데이터 50만 건 (Claude Opus 4.7 증류, CC-BY-4.0)
  • unsloth + QLoRA r=128, 3 epoch, 3090 1장으로 18시간
  • SimPO 단계: rinna/ultrafeedback-ja 10만 쌍, 4090 1장으로 6시간
  • 평가: JMT-Bench, Jaster, elyza-tasks-100

총 비용 클라우드 환산 약 $180 정도로, 2024년의 상용 API를 능가하는 일본어 모델을 만들 수 있는 시대가 되었습니다.

윤리와 데이터 래선스

강조해야 할 것은 데이터 래선스(data provenance)의 중요성입니다. 합성 데이터라 하더라도, 교사 모델의 출력에는 학습 원본 데이터의 저작권이 그림자를 드리웁니다. 2026년 EU AI Act 시행 후, 유럽 전개를 상정하는 모델은 다음을 문서화할 의무가 있습니다.

  • 종 데이터의 라이선스 목록 (robots.txt 준수 여부)
  • 교사 모델의 ToS와 파생 저작물 조항
  • PII(개인 식별 정보) 제거 방법과 필터 정밀도
  • 편향 평가 (BBQ-ja, StereoSet-ja 등)
  • "잊혀질 권리" 대응 절차

Hugging Face는 2026년 3월에 Dataset Cards v2를 필수화하여, 위 항목 기재가 없는 데이터셋은 downloads 표시에서 제외되게 되었습니다. 상업적으로 이용한다면 래선스 문서화는 투자 대비 효과가 높은 시책입니다.

2026년 하반기의 주목 포인트

자기 개선 루프(self-play / self-reward)가 연구에서 실용 단계로 이행하고 있습니다. Meta의 Self-Rewarding Language Models의 후속작, Anthropic Constitutional AI의 공개 구현, 그리고 일본 발의 "Constitutional AI 일본어판"의 등장이 기대됩니다. 파인튜닝 전문가는 알고리즘 자체보다 데이터 설계와 평가 설계의 역량으로 차이가 나는 시대에 접어들었습니다.

기술적 과제를 함께 해결해 보시겠습니까?

KGA IT Solutions는 AI·클라우드·DevOps 전문 팀이 고객의 과제에 최적의 솔루션을 제공합니다.

문의하기