Aokigahara — 継続的LLM評価パイプライン
Aokigahara — Continuous LLM Evaluation Pipeline
プロンプト・モデル・アダプタのあらゆる変更に対して回帰テストを走らせるEvalOps基盤。Ragas/DeepEval/Promptfooを統合し、Argo Workflowsでスケジュール実行、DuckDBで結果を永続化する社内R&Dプロトタイプ。
ライブデモ
実際のアプリケーション画面のプレビュー
Score delta
-3.2pt
p-value
0.0004 (Welch-t)
Failed tasks
MATH-500 · GSM8K-hard
Suspected cause
base ckpt swap · SFT step 4180
Eval pipeline runs
last 60 min · internal benchmarkSlack notification
Regression: math-bench-jp
Score: 71.8 (-3.2pt)
p-value: 0.0004
Run: run_21841
Triggered: sft-pipeline@4180
Holm–Bonferroni multi-task test
α = 0.05 · k = 5| Task | p-value | adj. p | H₀ |
|---|---|---|---|
| math-bench | 0.0004 | 0.0032 | reject |
| reasoning-jp | 0.0218 | 0.1308 | keep |
| rag-factuality | 0.0112 | 0.0784 | keep |
| coding-ja | 0.1920 | 0.5760 | keep |
| safety-pack | 0.4410 | 0.4410 | keep |
Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.
Canary eval sets
drift vs last week課題
LLMアプリはプロンプトやモデルを小さく変えるだけで挙動が大きく変わり、CI上で品質劣化を検知する仕組みがないまま本番に到達することが多い。評価ツールが乱立しており結果の比較も困難だった。
ソリューション
Promptfooをスモーク、Ragasを文書応答、DeepEvalをG-Evalと役割分担し、Argo Workflowsで夜間+PRトリガの二系統を運用。結果はDuckDBに統一スキーマで蓄積し、Streamlitダッシュボードで差分と回帰を可視化。基準値の自動更新はPR経由でレビューする。
成果
- PRごとに平均14分で評価完了し、マージ前に劣化PRを検出(社内運用)
- 夜間回帰で過去90日のスコア推移を追跡可能化
- 3種類の評価器を統一スキーマに正規化し比較レポートを自動生成
- 内部プロンプト12セットでの回帰差分アラートをSlackに配信
Measured Impact
PR評価完了時間
14分
社内運用
統合評価器
3種
Ragas/DeepEval/Promptfoo
プロンプトセット
12
社内
履歴保持期間
90日
DuckDB
What it does
評価
マルチ評価器
Ragas/DeepEval/Promptfooを統合実行。
統一スキーマ
結果をDuckDBに正規化して永続化。
運用
PR + 夜間
ArgoでPRトリガと夜間回帰を並走。
差分アラート
Slackで回帰を即座に通知。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
評価実行層
用途別に評価器を使い分け。
Layer
オーケストレーション層
夜間回帰とPRトリガを統合。
Layer
分析層
結果を永続化し差分レポートを生成。
How we built it
スキーマ統一
各評価器の出力を共通Pydanticモデルに正規化。
Deliverables
- Pydanticモデル
- 変換アダプタ
ワークフロー設計
Argoで並列実行と失敗時の再試行を設計。
Deliverables
- Argo YAML
- テンプレート
可視化
Streamlitでトレンドと差分を表示。
Deliverables
- ダッシュボード
- URL
運用整備
Slack通知とベースライン更新手順。
Deliverables
- Runbook
- 通知設定
Delivery Timeline
- Phase 1In Progress2026-05
評価器統合
Ragas/DeepEval/Promptfoo結果を統一スキーマ化。
- Phase 2Planned2026-06
Argoワークフロー
夜間+PRトリガの二系統を構築。
- Phase 3Planned2026-07
ダッシュボード
Streamlitで差分と回帰を可視化。
- Phase 4Planned2026-09
基準値自動更新
PRレビューを挟んだ安全なベースライン更新。
Who built it
Roles
- MLエンジニア (リード)
- プラットフォームエンジニア
Tools & Platforms
Backend
Data
Infrastructure
Other