KGA는 어떤 IT 서비스를 제공하나요?

KGA는 소프트웨어 설치·설정, SaaS 시스템 유지보수, 애플리케이션 설정 대행, 기술 지원, 디지털 컨설팅(웹사이트 제작 포함), 보안 서비스, 데이터 관리·백업 등 종합적인 IT 지원 서비스를 제공합니다.

서비스 지역은 어디인가요?

시즈오카현 코사이시를 거점으로 일본 전국에 원격 지원을 제공합니다. 방문 지원은 도카이 지역을 중심으로 대응합니다.

계약 전에 상담이 가능한가요?

네, 초기 상담과 견적은 완전히 무료입니다. 고객의 IT 과제를 듣고 최적의 솔루션을 제안합니다.

긴급 지원이 가능한가요?

네, 프리미엄 플랜은 24시간 긴급 대응이 가능합니다. 스탠다드 플랜도 영업시간 내 우선 대응을 제공합니다.

해외 TV 앱 설정도 가능한가요?

네, 해외 TV 애플리케이션 및 미디어 플레이어의 설치·설정을 지원합니다. 합법적인 해외 콘텐츠 접근 환경을 구축해 드립니다.

다국어 지원이 가능한가요?

일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어의 9개 언어로 지원을 제공합니다.

초기 비용이나 숨겨진 요금이 있나요?

없습니다. 표시된 모든 가격은 세금이 포함된 최종 금액입니다. 초기 비용, 숨겨진 요금, 예상치 못한 청구가 일절 발생하지 않습니다. 표시된 그대로 결제하시면 됩니다.

나중에 플랜을 변경할 수 있나요?

네, 언제든지 업그레이드, 다운그레이드, 해지하실 수 있습니다. 업그레이드는 즉시 적용되며 차액은 일할 계산됩니다. 다운그레이드는 다음 갱신 주기부터 적용됩니다.

이용 가능한 결제 수단은 무엇인가요?

Komoju를 통해 주요 신용카드(Visa, Mastercard, JCB, American Express)를 이용하실 수 있으며, 일본 내 계좌이체 및 편의점 결제도 지원합니다. 비즈니스 IT 플랜 고객에게는 세금계산서 발행도 가능합니다.

환불이 가능한가요?

네. 모든 연간 플랜에 대해 14일 전액 환불 보장을 제공하며, 사유를 묻지 않습니다. 월 정기 비즈니스 IT 플랜은 언제든지 해지 가능하며 미사용 기간에 대해 일할 환불됩니다.

연간 플랜과 비즈니스 IT 플랜의 차이는 무엇인가요?

연간 플랜은 개인 및 소규모 팀을 위한 앱 설정과 지원을 제공합니다. 비즈니스 IT 플랜은 웹사이트 개발, 시스템 운영, 자동화, 보안, 전담 계정 매니저까지 포함된 기업용 종합 월 구독 서비스입니다.

한국어로도 지원되나요?

네. 일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어 9개 언어로 이메일, 채팅, 화상 회의를 통해 완벽하게 지원해 드립니다.

오픈 LLM 파인튜닝 2026: 합성 데이터·DPO 변형·일본어 특화 모델 — KGA Tech Blog

합성 데이터 시대의 도래

년의 오픈 LLM 파인튜닝 사정은 2023~2024년의 "사람 어노테이션 중심"에서 "교사 모델에 의한 합성 데이터 중심"으로 완전히 패러다임이 전환되었습니다. Claude Opus 4.7, GPT-5, Gemini 2.5 Ultra 같은 최첨단 클로즈드 모델에서 "증류"한 고품질 데이터셋이 공개되어, 7B~13B급 베이스 모델에서도 2024년의 70B 상당의 지시 추종 능력을 획득할 수 있게 되었습니다.

본고에서는 2026년 4월 시점의 베스트 프랙티스를 데이터 생성, 알고리즘, 일본어 특화, 재현 레시피, 윤리의 5가지 축으로 정리합니다.

교사 모델 증류의 표준 절차

Microsoft의 Phi 시리즈가 개척한 "textbook-quality data" 철학은 2026년에 더욱 세련되었습니다. Phi-5 / Phi-5-mini의 레시피를 추시한 커뮤니티 데이터셋에서는 다음 파이프라인이 표준화되어 있습니다.

종 데이터 추출: Common Crawl + GitHub + arXiv + Stack Exchange에서 품질 점수 상위 5%를 추출
교사 모델에 의한 질문 생성: Claude Opus 4.7에 "이 문서에 대해 대학원생이 물어볼 법한 질문을 10개"
CoT 부 답변 생성: GPT-5로 추론 과정이 포함된 답변을 생성, 자기 일관성 체크
난이도 밸런싱: 쉬움·보통·어려움을 3:5:2로 혼합, 길이는 200~4000토큰
리젝션 샘플링: 별도 교사로 채점, 하위 30%를 제외

년 3월 공개된 MAP-Neo-v2 데이터셋(2.1T토큰, CC-BY-4.0)은 이 파이프라인으로 구축된 일영중 다국어 코퍼스로, Llama 3 8B 베이스의 계속 사전 학습에 30억 엔 상당의 계산 비용이 소요된 성과가 무상 배포되고 있습니다.

DPO / IPO / KTO의 구분 사용

선호 학습 알고리즘은 RLHF 시대를 거쳐, 계산량이 적은 오프라인 방식이 주류가 되었습니다. 2026년 시점에서의 구분 사용은 다음과 같습니다.

DPO (Direct Preference Optimization): 쌍 선호 데이터가 풍부한 경우의 첫 번째 선택. 구현이 단순하고, PPO 대비 계산 비용 1/5. 단, 보상 해킹 내성은 PPO보다 약합니다.
IPO (Identity Preference Optimization): DPO의 과학습 문제를 이론적으로 해소. 특히 소규모 데이터셋(1만 쌍 이하)에서 DPO를 능가합니다.
KTO (Kahneman-Tversky Optimization): 쌍 불필요, "좋음/나쁨"의 이진 라벨만으로 학습 가능. 사용자의 thumbs up/down 로그를 직접 활용할 수 있는 실무적 메리트가 큽니다.
SimPO: 참조 모델 불필요로 DPO를 개선. 메모리 사용 40% 절감, 성능 유지. 2026년의 표준에 근접하고 있습니다.
RLAIF (AI Feedback): 사람 라벨러를 Claude / GPT로 대체. 비용 1/100, 품질은 사람의 95%.

```yaml # axolotl에서의 SimPO 설정 예 (Qwen 3 7B 베이스) base_model: Qwen/Qwen3-7B-Base rl: simpo simpo_gamma: 1.4 simpo_beta: 2.0 datasets: - path: argilla/ultrafeedback-binarized-preferences-cleaned type: chatml.ultra learning_rate: 5.0e-7 num_epochs: 1 sample_packing: true gradient_checkpointing: true adapter: lora lora_r: 64 lora_alpha: 128 ```

일본어 특화 모델의 도달점

일본어 LLM은 2026년에 들어 해외 베이스 모델에 대한 계속 학습 루트가 결정적으로 우세해졌습니다. 주요 3계열의 최신 상황을 정리합니다.

Swallow v3 (도쿄과학대): Llama 4 70B 베이스의 계속 사전 학습 + 지시 튜닝. 일본어 코퍼스 600B토큰 추가, JMT-Bench 8.52, Jaster 77.4. 연구용도 무상, 상업용은 Llama 4 Community License 준수.

Rinna Nekomata-2 (rinna): Qwen 3 72B 베이스, 상업적 이용 가능한 Apache 2.0. 경어·겸양어·비즈니스 문서의 유창성에서 Swallow를 능가, JMT-Bench 8.47.

Sarashina 2.5 (SB Intuitions): 스크래치 학습 + Llama 4 증류의 하이브리드. 405B와 70B 두 가지 사이즈. 국산 주권 AI의 선두주자로, 금융·의료·지자체 도입 실적이 급증하고 있습니다.

년의 중요 트렌드는, 일본어 특화 모델이 "베이스 선택 × 일본어 합성 데이터 × 경량 선호 학습"의 3단계로 분해되어, axolotl의 YAML 수백 줄로 누구나 재현할 수 있는 수준이 된 점입니다.

재현 가능한 레시피: axolotl × unsloth

unsloth는 2026년판에서 QLoRA의 메모리 효율을 4.2배 개선하여, RTX 4090 1장으로 70B QLoRA를 실행할 수 있는 수준에 도달했습니다. axolotl은 분산 학습과 선호 학습 모두에 대응하며, 멀티 노드·멀티 GPU 구성에서의 재현성이 높습니다.

전형적인 일본어 지시 튜닝의 재현 절차는 다음과 같습니다.

베이스 모델 선택 (Qwen 3 7B Base)
일본어 합성 데이터 50만 건 (Claude Opus 4.7 증류, CC-BY-4.0)
unsloth + QLoRA r=128, 3 epoch, 3090 1장으로 18시간
SimPO 단계: rinna/ultrafeedback-ja 10만 쌍, 4090 1장으로 6시간
평가: JMT-Bench, Jaster, elyza-tasks-100

총 비용 클라우드 환산 약 $180 정도로, 2024년의 상용 API를 능가하는 일본어 모델을 만들 수 있는 시대가 되었습니다.

윤리와 데이터 래선스

종 데이터의 라이선스 목록 (robots.txt 준수 여부)
교사 모델의 ToS와 파생 저작물 조항
PII(개인 식별 정보) 제거 방법과 필터 정밀도
편향 평가 (BBQ-ja, StereoSet-ja 등)
"잊혀질 권리" 대응 절차

Hugging Face는 2026년 3월에 Dataset Cards v2를 필수화하여, 위 항목 기재가 없는 데이터셋은 downloads 표시에서 제외되게 되었습니다. 상업적으로 이용한다면 래선스 문서화는 투자 대비 효과가 높은 시책입니다.

2026년 하반기의 주목 포인트

자기 개선 루프(self-play / self-reward)가 연구에서 실용 단계로 이행하고 있습니다. Meta의 Self-Rewarding Language Models의 후속작, Anthropic Constitutional AI의 공개 구현, 그리고 일본 발의 "Constitutional AI 일본어판"의 등장이 기대됩니다. 파인튜닝 전문가는 알고리즘 자체보다 데이터 설계와 평가 설계의 역량으로 차이가 나는 시대에 접어들었습니다.

오픈 LLM 파인튜닝 2026: 합성 데이터·DPO 변형·일본어 특화 모델