Aokigahara — EvalOps Continuo para LLMs
Aokigahara — Continuous LLM Evaluation Pipeline
Pipeline continuo de evaluación de LLMs con detección de regresión, alertas y dashboards históricos. Prototipo de I+D para validación interna.
Demo en vivo
Vista previa de la pantalla real de la aplicación
Score delta
-3.2pt
p-value
0.0004 (Welch-t)
Failed tasks
MATH-500 · GSM8K-hard
Suspected cause
base ckpt swap · SFT step 4180
Eval pipeline runs
last 60 min · internal benchmarkSlack notification
Regression: math-bench-jp
Score: 71.8 (-3.2pt)
p-value: 0.0004
Run: run_21841
Triggered: sft-pipeline@4180
Holm–Bonferroni multi-task test
α = 0.05 · k = 5| Task | p-value | adj. p | H₀ |
|---|---|---|---|
| math-bench | 0.0004 | 0.0032 | reject |
| reasoning-jp | 0.0218 | 0.1308 | keep |
| rag-factuality | 0.0112 | 0.0784 | keep |
| coding-ja | 0.1920 | 0.5760 | keep |
| safety-pack | 0.4410 | 0.4410 | keep |
Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.
Canary eval sets
drift vs last weekDesafío
Cambiar prompts, modelos o versiones de pipeline frecuentemente rompía la calidad silenciosamente. No había rastro histórico ni alertas confiables cuando las métricas degradaban.
Solución
Pipeline orientado a eventos que ejecuta suites de evaluación en cada commit, almacena métricas en series temporales y dispara alertas en desviaciones estadísticas. Dashboard con diffs por prompt/modelo. Operación 100% interna.
Resultados
- Detección de regresión en < 12min tras commit (datos internos)
- Histórico de 90 días de métricas por suite (datos internos)
- 23 suites de evaluación activas en I+D (datos internos)
- Falsas alertas reducidas en 71% tras calibración (datos internos)
Measured Impact
PR評価完了時間
14分
社内運用
統合評価器
3種
Ragas/DeepEval/Promptfoo
プロンプトセット
12
社内
履歴保持期間
90日
DuckDB
What it does
評価
マルチ評価器
Ragas/DeepEval/Promptfooを統合実行。
統一スキーマ
結果をDuckDBに正規化して永続化。
運用
PR + 夜間
ArgoでPRトリガと夜間回帰を並走。
差分アラート
Slackで回帰を即座に通知。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
評価実行層
用途別に評価器を使い分け。
Layer
オーケストレーション層
夜間回帰とPRトリガを統合。
Layer
分析層
結果を永続化し差分レポートを生成。
How we built it
スキーマ統一
各評価器の出力を共通Pydanticモデルに正規化。
Deliverables
- Pydanticモデル
- 変換アダプタ
ワークフロー設計
Argoで並列実行と失敗時の再試行を設計。
Deliverables
- Argo YAML
- テンプレート
可視化
Streamlitでトレンドと差分を表示。
Deliverables
- ダッシュボード
- URL
運用整備
Slack通知とベースライン更新手順。
Deliverables
- Runbook
- 通知設定
Delivery Timeline
- Phase 1In Progress2026-05
評価器統合
Ragas/DeepEval/Promptfoo結果を統一スキーマ化。
- Phase 2Planned2026-06
Argoワークフロー
夜間+PRトリガの二系統を構築。
- Phase 3Planned2026-07
ダッシュボード
Streamlitで差分と回帰を可視化。
- Phase 4Planned2026-09
基準値自動更新
PRレビューを挟んだ安全なベースライン更新。
Who built it
Roles
- MLエンジニア (リード)
- プラットフォームエンジニア
Tools & Platforms
Backend
Data
Infrastructure
Other
¿Interesado en un proyecto similar?
Te propondremos la mejor solución para tu negocio.
Consultar sobre tu proyecto