FineTune LoRA JP — Pipeline de Fine-Tuning para Dominios Jurídico/Médico
LoRA-JP — Japanese Domain LoRA Fine-tuning Pipeline
Pipeline de fine-tuning LoRA/QLoRA con Unsloth para LLMs en japonés especializados en jurídico y médico. Prototipo de I+D en validación interna.
Demo en vivo
Vista previa de la pantalla real de la aplicación
Training curve
VRAM usage
base weights
16.4 GB (4bit)
adapters + kv
31.6 GB
Checkpoint registry
internal benchmark · 社内検証| ckpt | base model | dataset | adapter | F1 | status |
|---|---|---|---|---|---|
| ckpt-4212 | Qwen2.5-32B | jp-legal-42k | 148 MB | 0.884 | deployed |
| ckpt-4198 | Llama-3.1-70B | jp-medical-18k | 312 MB | 0.871 | eval |
| ckpt-4180 | Qwen2.5-32B | jp-finance-26k | 148 MB | 0.852 | deployed |
| ckpt-4155 | Phi-3-14B | jp-customer-94k | 82 MB | 0.818 | archive |
| ckpt-4142 | Qwen2.5-32B | jp-legal-42k (v1) | 148 MB | 0.806 | archive |
Domain benchmark
base vs tunedHot-swap adapter
liveDesafío
Los modelos base genéricos rendían mal en terminología jurídica y médica en japonés, y el costo de full fine-tuning era prohibitivo para iteración rápida en I+D.
Solución
Pipeline reproducible que combina QLoRA 4-bit con Unsloth para acelerar entrenamiento en hardware único, datasets curados de jurisprudencia y literatura médica JA, y evaluación automatizada con prompts especializados. Operado como laboratorio interno.
Resultados
- Entrenamiento de 7B en 11h en una sola RTX 4090 (datos internos)
- Precisión en QA jurídico JA: +18% sobre baseline (datos internos)
- Costo de iteración reducido en 92% vs full fine-tuning (datos internos)
- 5 adaptadores LoRA enviados para validación interna
Measured Impact
学習スループット
1.9x
vs HF標準
社内タスク精度
+14%
内部評価
同時アダプタ数
3
vLLM dynamic
学習コスト
A100 40GB x1
単一GPU
What it does
学習
QLoRA 4bit
bitsandbytes+PEFTでVRAM消費を最小化。
選好学習
TRL DPOTrainerで好ましい応答を学習。
サービング
動的LoRA切替
vLLMホットスワップで再起動なし切替。
複数アダプタ多重化
同一ベースモデルで3系統のアダプタ同時公開。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
データ層
学習用ペアをParquetで版管理。
Layer
学習層
QLoRAでVRAM節約しつつ選好学習まで統合。
Layer
サービング層
複数アダプタを同一ベースモデルで多重化。
How we built it
データ設計
SFT/DPO用のプロンプト・応答ペアを設計。
Deliverables
- スキーマ
- サンプル500件
学習パイプライン
Unsloth+TRLでジョブをYAML化。
Deliverables
- 学習ジョブYAML
- 再現スクリプト
評価接続
Kotobaハーネスと自動連携。
Deliverables
- CIジョブ
- 差分レポート
サービング検証
vLLMでアダプタ同時提供の負荷試験。
Deliverables
- 負荷試験レポート
- 運用手順書
Delivery Timeline
- Phase 1In Progress2026-05
データ前処理
社内文書をSFT/DPO形式に変換するETLを整備。
- Phase 2Planned2026-06
Unsloth学習基盤
QLoRA学習ジョブをKubernetesで再現可能化。
- Phase 3Planned2026-07
vLLMホットスワップ
dynamic LoRA loadingを本番類似環境で検証。
- Phase 4Planned2026-09
評価ループ統合
Kotoba評価ハーネスと接続し回帰テスト化。
Who built it
Roles
- MLエンジニア (リード)
- データエンジニア
Tools & Platforms
Backend
Infrastructure
Other
¿Interesado en un proyecto similar?
Te propondremos la mejor solución para tu negocio.
Consultar sobre tu proyecto