Aokigahara — Continuous LLM Evaluation Pipeline
Aokigahara — Continuous LLM Evaluation Pipeline
Internal na R&D para sa continuous LLM evaluation pipeline na may regression detection.
Live Demo
Preview ng aktwal na screen ng application
Score delta
-3.2pt
p-value
0.0004 (Welch-t)
Failed tasks
MATH-500 · GSM8K-hard
Suspected cause
base ckpt swap · SFT step 4180
Eval pipeline runs
last 60 min · internal benchmarkSlack notification
Regression: math-bench-jp
Score: 71.8 (-3.2pt)
p-value: 0.0004
Run: run_21841
Triggered: sft-pipeline@4180
Holm–Bonferroni multi-task test
α = 0.05 · k = 5| Task | p-value | adj. p | H₀ |
|---|---|---|---|
| math-bench | 0.0004 | 0.0032 | reject |
| reasoning-jp | 0.0218 | 0.1308 | keep |
| rag-factuality | 0.0112 | 0.0784 | keep |
| coding-ja | 0.1920 | 0.5760 | keep |
| safety-pack | 0.4410 | 0.4410 | keep |
Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.
Canary eval sets
drift vs last weekHamon
Tuklasin ang LLM performance regressions sa mga prompt at model versions nang walang heavy manual review cycles.
Solusyon
Evaluation CI pipeline na may dataset-based test suites, automatic regression thresholds, at notifications — pinapatakbo laban sa internal na validation data.
Mga Resulta
- 30+ evaluation suites na pinatatakbo kada PR sa internal pilot
- Regression detection benchmark 95% sa synthetic prompt changes
- Internal beta sa 5 prompt engineers — review cycle pinaikli ng ~50%
- Internal R&D lang — walang paying client
Measured Impact
PR評価完了時間
14分
社内運用
統合評価器
3種
Ragas/DeepEval/Promptfoo
プロンプトセット
12
社内
履歴保持期間
90日
DuckDB
What it does
評価
マルチ評価器
Ragas/DeepEval/Promptfooを統合実行。
統一スキーマ
結果をDuckDBに正規化して永続化。
運用
PR + 夜間
ArgoでPRトリガと夜間回帰を並走。
差分アラート
Slackで回帰を即座に通知。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
評価実行層
用途別に評価器を使い分け。
Layer
オーケストレーション層
夜間回帰とPRトリガを統合。
Layer
分析層
結果を永続化し差分レポートを生成。
How we built it
スキーマ統一
各評価器の出力を共通Pydanticモデルに正規化。
Deliverables
- Pydanticモデル
- 変換アダプタ
ワークフロー設計
Argoで並列実行と失敗時の再試行を設計。
Deliverables
- Argo YAML
- テンプレート
可視化
Streamlitでトレンドと差分を表示。
Deliverables
- ダッシュボード
- URL
運用整備
Slack通知とベースライン更新手順。
Deliverables
- Runbook
- 通知設定
Delivery Timeline
- Phase 1In Progress2026-05
評価器統合
Ragas/DeepEval/Promptfoo結果を統一スキーマ化。
- Phase 2Planned2026-06
Argoワークフロー
夜間+PRトリガの二系統を構築。
- Phase 3Planned2026-07
ダッシュボード
Streamlitで差分と回帰を可視化。
- Phase 4Planned2026-09
基準値自動更新
PRレビューを挟んだ安全なベースライン更新。
Who built it
Roles
- MLエンジニア (リード)
- プラットフォームエンジニア
Tools & Platforms
Backend
Data
Infrastructure
Other
Interesado ka ba sa katulad na proyekto?
Mag-aalok kami ng pinakamahusay na solusyon para sa iyong negosyo.
Pag-usapan ang Iyong Proyekto