LoRA-JP — 일본어 도메인 적응 파인튜닝
LoRA-JP — Japanese Domain LoRA Fine-tuning Pipeline
일본어 도메인 특화 LLM에 LoRA/QLoRA 어댑터를 적용해 의료·법률·기술 문서 정확도를 끌어올리는 R&D 프로토타입입니다.
라이브 데모
실제 애플리케이션 화면 미리보기
Training curve
VRAM usage
base weights
16.4 GB (4bit)
adapters + kv
31.6 GB
Checkpoint registry
internal benchmark · 社内検証| ckpt | base model | dataset | adapter | F1 | status |
|---|---|---|---|---|---|
| ckpt-4212 | Qwen2.5-32B | jp-legal-42k | 148 MB | 0.884 | deployed |
| ckpt-4198 | Llama-3.1-70B | jp-medical-18k | 312 MB | 0.871 | eval |
| ckpt-4180 | Qwen2.5-32B | jp-finance-26k | 148 MB | 0.852 | deployed |
| ckpt-4155 | Phi-3-14B | jp-customer-94k | 82 MB | 0.818 | archive |
| ckpt-4142 | Qwen2.5-32B | jp-legal-42k (v1) | 148 MB | 0.806 | archive |
Domain benchmark
base vs tunedHot-swap adapter
live과제
일본어 영역별 데이터 부족과 GPU 메모리 한계로 풀 파인튜닝이 비현실적이며, 도메인별 환각이 사라지지 않았습니다.
솔루션
QLoRA 4bit 양자화 + DeepSpeed ZeRO-3로 24GB GPU에서도 7B~13B 모델 어댑터를 학습 가능하게 만들고, 도메인 평가 세트를 사내 구축했습니다.
성과
- 내부 검증 데이터 기준 의료 QA 정확도 +21%
- 법률 조문 인용 정확도 환각률 절반으로 감소
- 어댑터 1세트 학습 시간 11시간 → 3.5시간
- 동일 GPU 풀에서 다중 어댑터 핫스왑 추론 파이프라인 가동
Measured Impact
学習スループット
1.9x
vs HF標準
社内タスク精度
+14%
内部評価
同時アダプタ数
3
vLLM dynamic
学習コスト
A100 40GB x1
単一GPU
What it does
学習
QLoRA 4bit
bitsandbytes+PEFTでVRAM消費を最小化。
選好学習
TRL DPOTrainerで好ましい応答を学習。
サービング
動的LoRA切替
vLLMホットスワップで再起動なし切替。
複数アダプタ多重化
同一ベースモデルで3系統のアダプタ同時公開。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
データ層
学習用ペアをParquetで版管理。
Layer
学習層
QLoRAでVRAM節約しつつ選好学習まで統合。
Layer
サービング層
複数アダプタを同一ベースモデルで多重化。
How we built it
データ設計
SFT/DPO用のプロンプト・応答ペアを設計。
Deliverables
- スキーマ
- サンプル500件
学習パイプライン
Unsloth+TRLでジョブをYAML化。
Deliverables
- 学習ジョブYAML
- 再現スクリプト
評価接続
Kotobaハーネスと自動連携。
Deliverables
- CIジョブ
- 差分レポート
サービング検証
vLLMでアダプタ同時提供の負荷試験。
Deliverables
- 負荷試験レポート
- 運用手順書
Delivery Timeline
- Phase 1In Progress2026-05
データ前処理
社内文書をSFT/DPO形式に変換するETLを整備。
- Phase 2Planned2026-06
Unsloth学習基盤
QLoRA学習ジョブをKubernetesで再現可能化。
- Phase 3Planned2026-07
vLLMホットスワップ
dynamic LoRA loadingを本番類似環境で検証。
- Phase 4Planned2026-09
評価ループ統合
Kotoba評価ハーネスと接続し回帰テスト化。
Who built it
Roles
- MLエンジニア (リード)
- データエンジニア
Tools & Platforms
Backend
Infrastructure
Other