Aokigahara — 지속적 LLM 평가 파이프라인
Aokigahara — Continuous LLM Evaluation Pipeline
프로덕션 LLM 변경을 야간 회귀 테스트로 자동 평가하는 EvalOps R&D 파이프라인입니다.
라이브 데모
실제 애플리케이션 화면 미리보기
Score delta
-3.2pt
p-value
0.0004 (Welch-t)
Failed tasks
MATH-500 · GSM8K-hard
Suspected cause
base ckpt swap · SFT step 4180
Eval pipeline runs
last 60 min · internal benchmarkSlack notification
Regression: math-bench-jp
Score: 71.8 (-3.2pt)
p-value: 0.0004
Run: run_21841
Triggered: sft-pipeline@4180
Holm–Bonferroni multi-task test
α = 0.05 · k = 5| Task | p-value | adj. p | H₀ |
|---|---|---|---|
| math-bench | 0.0004 | 0.0032 | reject |
| reasoning-jp | 0.0218 | 0.1308 | keep |
| rag-factuality | 0.0112 | 0.0784 | keep |
| coding-ja | 0.1920 | 0.5760 | keep |
| safety-pack | 0.4410 | 0.4410 | keep |
Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.
Canary eval sets
drift vs last week과제
프롬프트·모델·체인 변경이 누적되며 어떤 변경이 품질을 떨어뜨렸는지 추적 불가능했습니다.
솔루션
황금 데이터셋과 LLM-as-Judge, 휴먼 인 더 루프 샘플링을 묶어 PR 단위 회귀 점수를 자동 계산하고 임계값 위반 시 머지를 차단합니다.
성과
- 사내 검증에서 회귀 사고 발견까지의 시간 평균 9일 → 1일
- 야간 평가 1실행 비용 $42 → $11
- PR 단위 품질 점수 가시화로 머지 결정 효율 +40%
- 황금 데이터셋 1,800건 사내 큐레이션
Measured Impact
PR評価完了時間
14分
社内運用
統合評価器
3種
Ragas/DeepEval/Promptfoo
プロンプトセット
12
社内
履歴保持期間
90日
DuckDB
What it does
評価
マルチ評価器
Ragas/DeepEval/Promptfooを統合実行。
統一スキーマ
結果をDuckDBに正規化して永続化。
運用
PR + 夜間
ArgoでPRトリガと夜間回帰を並走。
差分アラート
Slackで回帰を即座に通知。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
評価実行層
用途別に評価器を使い分け。
Layer
オーケストレーション層
夜間回帰とPRトリガを統合。
Layer
分析層
結果を永続化し差分レポートを生成。
How we built it
スキーマ統一
各評価器の出力を共通Pydanticモデルに正規化。
Deliverables
- Pydanticモデル
- 変換アダプタ
ワークフロー設計
Argoで並列実行と失敗時の再試行を設計。
Deliverables
- Argo YAML
- テンプレート
可視化
Streamlitでトレンドと差分を表示。
Deliverables
- ダッシュボード
- URL
運用整備
Slack通知とベースライン更新手順。
Deliverables
- Runbook
- 通知設定
Delivery Timeline
- Phase 1In Progress2026-05
評価器統合
Ragas/DeepEval/Promptfoo結果を統一スキーマ化。
- Phase 2Planned2026-06
Argoワークフロー
夜間+PRトリガの二系統を構築。
- Phase 3Planned2026-07
ダッシュボード
Streamlitで差分と回帰を可視化。
- Phase 4Planned2026-09
基準値自動更新
PRレビューを挟んだ安全なベースライン更新。
Who built it
Roles
- MLエンジニア (リード)
- プラットフォームエンジニア
Tools & Platforms
Backend
Data
Infrastructure
Other