Kotoba — Bộ đánh giá RAG tiếng Nhật
Kotoba — Japanese RAG Evaluation Harness
R&D nội bộ cho bộ harness đánh giá hệ thống RAG tiếng Nhật với chỉ số faithfulness và retrieval.
Demo trực tiếp
Xem trước giao diện ứng dụng thực tế
Retriever 比較
Embedding Leaderboard
internal benchmark| # | Model | Params | R@10 | nDCG |
|---|---|---|---|---|
| 1 | ruri-large-v2 | 337M | 0.847 | 0.792 |
| 2 | multilingual-e5-large | 560M | 0.821 | 0.774 |
| 3 | cl-nagoya/sup-simcse-ja | 110M | 0.789 | 0.751 |
| 4 | sudachi-bm25 (baseline) | — | 0.724 | 0.683 |
| 5 | mE5-small | 118M | 0.712 | 0.669 |
Query trace — sample #842
index: kotoba-legal-ja-v3Query
医療機器の添付文書における使用期限の記載要件を教えて
医療機器の添付文書には、使用の期限を記載しなければならない…
使用期限の表示は、製造販売業者が設定する有効期間に基づき…
リスクマネジメントの観点から、使用期限の妥当性を検証する…
ラベル表示における日付フォーマットは YYYY.MM 形式とし…
Thách thức
Xây dựng harness đánh giá có thể lặp lại cho RAG tiếng Nhật bao quát độ chính xác retrieval, faithfulness và hallucination mà không có dữ liệu khách hàng thật.
Giải pháp
Khung đánh giá với bộ kiểm thử tiếng Nhật tổng hợp, chỉ số faithfulness dựa trên LLM-judge và bảng điều khiển regression — chỉ chạy trên dữ liệu xác thực nội bộ.
Kết quả
- Bao phủ 12 chỉ số RAG (recall@k, faithfulness, answer relevance) trong thí điểm nội bộ
- Bộ kiểm thử tổng hợp 5k cặp QA tiếng Nhật được tạo cho benchmark nội bộ
- Beta nội bộ với 3 kỹ sư đánh giá — chu trình review rút ngắn ~40%
- Chỉ R&D nội bộ — không có khách hàng trả phí, chỉ dữ liệu xác thực nội bộ
Measured Impact
評価データセット件数
1,200 QA
+1,200 (内部合成)
nDCG@10改善幅
+18pt
社内ベースライン比
1ラン実行時間
9分
-33分
並列ワーカー数
8
+6
What it does
評価機能
nDCG/MRR/Recall@K
主要IRメトリクスをDuckDBに永続化し差分可視化。
LLM-as-Judge
合成QAとRagas faithfulness/answer relevancy。
日本語対応
トークナイザ抽象
Sudachi A/B/CモードとMeCabをプラガブル切替。
表記ゆれ正規化
NFKC・全半角・カタカナ揺れの事前統一。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
前処理層
表記ゆれと分かち書き境界を揃える日本語前処理。モード別に分岐し結果をキャッシュ。
Layer
検索層
密ベクトルとBM25のハイブリッドで候補抽出、cross-encoderで再ランキング。
Layer
評価層
実行ごとのメトリクスとプロンプトをDuckDBに蓄積し差分レポートを生成。
How we built it
データセット整備
JSQuAD・MIRACL-jaと社内合成QAを統一スキーマに変換。
Deliverables
- データローダ
- スキーマ定義
- 品質レポート
トークナイザ比較
Sudachi各モードとMeCabの精度・速度をマトリクス評価。
Deliverables
- ベンチマーク表
- ユニットテスト
- 設定テンプレート
埋め込みモデル評価
ruri-large等の日本語特化モデルを並列評価。
Deliverables
- モデル比較レポート
- 埋め込みキャッシュ
CI統合
夜間回帰と差分アラートをGitHub Actionsに組み込み。
Deliverables
- ワークフローYAML
- 通知Bot
- ダッシュボード
Delivery Timeline
- Phase 1Done2026-04
トークナイザ抽象層
Sudachi/MeCabをPluginインターフェースで統一し単体テストを整備。
- Phase 2In Progress2026-05
評価メトリクス実装
nDCG/MRR/Recallを再計算可能な形でDuckDBに永続化。
- Phase 3Planned2026-06
LLM-as-Judge合成QA
社内文書からQAペアを自動生成し人手レビュー導線を追加。
- Phase 4Planned2026-08
OSS公開検討
MITライセンスでの部分公開と社外ベンチマーク受け入れ。
Who built it
Roles
- MLエンジニア (リード)
- データエンジニア (パートタイム)
Tools & Platforms
Backend
Data
Infrastructure
Other
Bạn quan tâm đến dự án tương tự?
Chúng tôi sẽ đề xuất giải pháp tốt nhất cho doanh nghiệp của bạn.
Trao đổi về dự án