LoRA-JP — 日语领域适配微调
LoRA-JP — Japanese Domain LoRA Fine-tuning Pipeline
通过 LoRA/QLoRA 适配器对日语领域 LLM 进行医疗、法律、技术文档精度提升的研发原型。
在线演示
实际应用界面预览
Training curve
VRAM usage
base weights
16.4 GB (4bit)
adapters + kv
31.6 GB
Checkpoint registry
internal benchmark · 社内検証| ckpt | base model | dataset | adapter | F1 | status |
|---|---|---|---|---|---|
| ckpt-4212 | Qwen2.5-32B | jp-legal-42k | 148 MB | 0.884 | deployed |
| ckpt-4198 | Llama-3.1-70B | jp-medical-18k | 312 MB | 0.871 | eval |
| ckpt-4180 | Qwen2.5-32B | jp-finance-26k | 148 MB | 0.852 | deployed |
| ckpt-4155 | Phi-3-14B | jp-customer-94k | 82 MB | 0.818 | archive |
| ckpt-4142 | Qwen2.5-32B | jp-legal-42k (v1) | 148 MB | 0.806 | archive |
Domain benchmark
base vs tunedHot-swap adapter
live挑战
日语各领域数据匮乏且 GPU 显存受限,完整微调不可行,领域内幻觉难以消除。
解决方案
采用 QLoRA 4bit 量化结合 DeepSpeed ZeRO-3,使 24GB GPU 也可训练 7B~13B 模型适配器,并自建领域评估集。
成果
- 内部验证数据下医疗 QA 精度提升 21%
- 法律条文引用幻觉率减半
- 单组适配器训练时间由 11 小时缩短至 3.5 小时
- 构建支持同一 GPU 池上多适配器热切换的推理流水线
Measured Impact
学習スループット
1.9x
vs HF標準
社内タスク精度
+14%
内部評価
同時アダプタ数
3
vLLM dynamic
学習コスト
A100 40GB x1
単一GPU
What it does
学習
QLoRA 4bit
bitsandbytes+PEFTでVRAM消費を最小化。
選好学習
TRL DPOTrainerで好ましい応答を学習。
サービング
動的LoRA切替
vLLMホットスワップで再起動なし切替。
複数アダプタ多重化
同一ベースモデルで3系統のアダプタ同時公開。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
データ層
学習用ペアをParquetで版管理。
Layer
学習層
QLoRAでVRAM節約しつつ選好学習まで統合。
Layer
サービング層
複数アダプタを同一ベースモデルで多重化。
How we built it
データ設計
SFT/DPO用のプロンプト・応答ペアを設計。
Deliverables
- スキーマ
- サンプル500件
学習パイプライン
Unsloth+TRLでジョブをYAML化。
Deliverables
- 学習ジョブYAML
- 再現スクリプト
評価接続
Kotobaハーネスと自動連携。
Deliverables
- CIジョブ
- 差分レポート
サービング検証
vLLMでアダプタ同時提供の負荷試験。
Deliverables
- 負荷試験レポート
- 運用手順書
Delivery Timeline
- Phase 1In Progress2026-05
データ前処理
社内文書をSFT/DPO形式に変換するETLを整備。
- Phase 2Planned2026-06
Unsloth学習基盤
QLoRA学習ジョブをKubernetesで再現可能化。
- Phase 3Planned2026-07
vLLMホットスワップ
dynamic LoRA loadingを本番類似環境で検証。
- Phase 4Planned2026-09
評価ループ統合
Kotoba評価ハーネスと接続し回帰テスト化。
Who built it
Roles
- MLエンジニア (リード)
- データエンジニア
Tools & Platforms
Backend
Infrastructure
Other