Skip to content
返回项目列表
AI / 机器学习In Development

LoRA-JP — 日语领域适配微调

LoRA-JP — Japanese Domain LoRA Fine-tuning Pipeline

通过 LoRA/QLoRA 适配器对日语领域 LLM 进行医疗、法律、技术文档精度提升的研发原型。

2026 内部研发中 2026-05
#LoRA#ファインチューニング#vLLM#日本語#QLoRA

在线演示

实际应用界面预览

DEMO
app.finetune.jp/dashboard
Train loss
0.174
step 4212/5000
Eval F1
0.884
+26pt vs base
Throughput
1,842 tok/s
4x A100-80G
LoRA rank
r=64
α=128 · QLoRA 4bit

Training curve

train loss eval loss
step 01k2k3k4k5k

VRAM usage

48GBof 80GB · 4bit QLoRA

base weights

16.4 GB (4bit)

adapters + kv

31.6 GB

Checkpoint registry

internal benchmark · 社内検証
ckptbase modeldatasetadapterF1status
ckpt-4212Qwen2.5-32Bjp-legal-42k148 MB0.884deployed
ckpt-4198Llama-3.1-70Bjp-medical-18k312 MB0.871eval
ckpt-4180Qwen2.5-32Bjp-finance-26k148 MB0.852deployed
ckpt-4155Phi-3-14Bjp-customer-94k82 MB0.818archive
ckpt-4142Qwen2.5-32Bjp-legal-42k (v1)148 MB0.806archive

Domain benchmark

base vs tuned
法律QA (legal-ja)+26pt
base 62tuned 88
医療NER (med-ner-ja)+20pt
base 71tuned 91
金融要約 (fin-sum)+26pt
base 58tuned 84
長文読解 (jp-mmlu)+13pt
base 66tuned 79

Hot-swap adapter

live
checkpointckpt-4212
adapter size148 MB
swap latency112 ms
base kept hot shared
Adapter swapped in-place — base weights pinned in VRAM. Zero cold-start.

挑战

日语各领域数据匮乏且 GPU 显存受限,完整微调不可行,领域内幻觉难以消除。

解决方案

采用 QLoRA 4bit 量化结合 DeepSpeed ZeRO-3,使 24GB GPU 也可训练 7B~13B 模型适配器,并自建领域评估集。

成果

  • 内部验证数据下医疗 QA 精度提升 21%
  • 法律条文引用幻觉率减半
  • 单组适配器训练时间由 11 小时缩短至 3.5 小时
  • 构建支持同一 GPU 池上多适配器热切换的推理流水线
Key Metrics

Measured Impact

学習スループット

1.9x

vs HF標準

社内タスク精度

+14%

内部評価

同時アダプタ数

3

vLLM dynamic

学習コスト

A100 40GB x1

単一GPU

Features

What it does

学習

QLoRA 4bit

bitsandbytes+PEFTでVRAM消費を最小化。

選好学習

TRL DPOTrainerで好ましい応答を学習。

サービング

動的LoRA切替

vLLMホットスワップで再起動なし切替。

複数アダプタ多重化

同一ベースモデルで3系統のアダプタ同時公開。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

データ層

学習用ペアをParquetで版管理。

社内ドキュメントETLSudachi前処理Parquet
L2

Layer

学習層

QLoRAでVRAM節約しつつ選好学習まで統合。

UnslothTRL SFTTrainerDPOTrainerDeepSpeed ZeRO-2
L3

Layer

サービング層

複数アダプタを同一ベースモデルで多重化。

vLLMdynamic LoRATritonEnvoy
Development Process

How we built it

Step 1

データ設計

SFT/DPO用のプロンプト・応答ペアを設計。

Deliverables

  • スキーマ
  • サンプル500件
Step 2

学習パイプライン

Unsloth+TRLでジョブをYAML化。

Deliverables

  • 学習ジョブYAML
  • 再現スクリプト
Step 3

評価接続

Kotobaハーネスと自動連携。

Deliverables

  • CIジョブ
  • 差分レポート
Step 4

サービング検証

vLLMでアダプタ同時提供の負荷試験。

Deliverables

  • 負荷試験レポート
  • 運用手順書
Roadmap

Delivery Timeline

  • Phase 1In Progress2026-05

    データ前処理

    社内文書をSFT/DPO形式に変換するETLを整備。

  • Phase 2Planned2026-06

    Unsloth学習基盤

    QLoRA学習ジョブをKubernetesで再現可能化。

  • Phase 3Planned2026-07

    vLLMホットスワップ

    dynamic LoRA loadingを本番類似環境で検証。

  • Phase 4Planned2026-09

    評価ループ統合

    Kotoba評価ハーネスと接続し回帰テスト化。

Team

Who built it

2engineers

Roles

  • MLエンジニア (リード)
  • データエンジニア
技术栈

Tools & Platforms

Backend

Python 3.12vLLM

Infrastructure

Docker

Other

PyTorch 2.4UnslothTRLQLoRAPEFTbitsandbytesWandBDeepSpeedHugging Face HubMLflow
Build with KGA

正在考虑类似的项目?

我们将为您的业务需求提供最优解决方案。

咨询您的项目