Skip to content
Lista de proyectos
IA / EvalOpsIn Development

Aokigahara — EvalOps Continuo para LLMs

Aokigahara — Continuous LLM Evaluation Pipeline

Pipeline continuo de evaluación de LLMs con detección de regresión, alertas y dashboards históricos. Prototipo de I+D para validación interna.

2026 Prototipo de I+D 2026-05
#EvalOps#CI/CD#Ragas#DeepEval#Argo

Demo en vivo

Vista previa de la pantalla real de la aplicación

DEMO
app.evalops.jp/dashboard
Overall score
84.2
composite · +0.4pt
Jailbreak detect
98.0%
DAN + WildJailbreak
Canary set
836
社内検証 · gold
Runs today
142
ci + nightly + ad-hoc
Regression detected — math-bench-jprun_21841
blocker · CI red

Score delta

-3.2pt

p-value

0.0004 (Welch-t)

Failed tasks

MATH-500 · GSM8K-hard

Suspected cause

base ckpt swap · SFT step 4180

Eval pipeline runs

last 60 min · internal benchmark
run_21842reasoning-jp-v384.2+0.4
run_21841math-bench-jp71.8-3.2
run_21840safety-pack-v497.1+0.1
run_21839rag-factuality88.6+1.2
run_21838coding-ja-eval79.4+2.0

Slack notification

EvalOps BotAPP

Regression: math-bench-jp

Score: 71.8 (-3.2pt)

p-value: 0.0004

Run: run_21841

Triggered: sft-pipeline@4180

#llm-evalops-alertsdelivered · 12s

Holm–Bonferroni multi-task test

α = 0.05 · k = 5
Taskp-valueadj. pH₀
math-bench0.00040.0032reject
reasoning-jp0.02180.1308keep
rag-factuality0.01120.0784keep
coding-ja0.19200.5760keep
safety-pack0.44100.4410keep

Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.

Canary eval sets

drift vs last week
canary-jailbreakdrift 0.2%
n=240·frozen gold·pass
canary-hallucinationdrift 0.0%
n=180·frozen gold·pass
canary-pii-leakdrift 0.0%
n=96·frozen gold·pass
canary-biasdrift 0.4%
n=320·frozen gold·pass

Desafío

Cambiar prompts, modelos o versiones de pipeline frecuentemente rompía la calidad silenciosamente. No había rastro histórico ni alertas confiables cuando las métricas degradaban.

Solución

Pipeline orientado a eventos que ejecuta suites de evaluación en cada commit, almacena métricas en series temporales y dispara alertas en desviaciones estadísticas. Dashboard con diffs por prompt/modelo. Operación 100% interna.

Resultados

  • Detección de regresión en < 12min tras commit (datos internos)
  • Histórico de 90 días de métricas por suite (datos internos)
  • 23 suites de evaluación activas en I+D (datos internos)
  • Falsas alertas reducidas en 71% tras calibración (datos internos)
Key Metrics

Measured Impact

PR評価完了時間

14分

社内運用

統合評価器

3種

Ragas/DeepEval/Promptfoo

プロンプトセット

12

社内

履歴保持期間

90日

DuckDB

Features

What it does

評価

マルチ評価器

Ragas/DeepEval/Promptfooを統合実行。

統一スキーマ

結果をDuckDBに正規化して永続化。

運用

PR + 夜間

ArgoでPRトリガと夜間回帰を並走。

差分アラート

Slackで回帰を即座に通知。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

評価実行層

用途別に評価器を使い分け。

RagasDeepEvalPromptfoo
L2

Layer

オーケストレーション層

夜間回帰とPRトリガを統合。

Argo WorkflowsKubernetesGitHub Actions
L3

Layer

分析層

結果を永続化し差分レポートを生成。

DuckDBStreamlitS3
Development Process

How we built it

Step 1

スキーマ統一

各評価器の出力を共通Pydanticモデルに正規化。

Deliverables

  • Pydanticモデル
  • 変換アダプタ
Step 2

ワークフロー設計

Argoで並列実行と失敗時の再試行を設計。

Deliverables

  • Argo YAML
  • テンプレート
Step 3

可視化

Streamlitでトレンドと差分を表示。

Deliverables

  • ダッシュボード
  • URL
Step 4

運用整備

Slack通知とベースライン更新手順。

Deliverables

  • Runbook
  • 通知設定
Roadmap

Delivery Timeline

  • Phase 1In Progress2026-05

    評価器統合

    Ragas/DeepEval/Promptfoo結果を統一スキーマ化。

  • Phase 2Planned2026-06

    Argoワークフロー

    夜間+PRトリガの二系統を構築。

  • Phase 3Planned2026-07

    ダッシュボード

    Streamlitで差分と回帰を可視化。

  • Phase 4Planned2026-09

    基準値自動更新

    PRレビューを挟んだ安全なベースライン更新。

Team

Who built it

2engineers

Roles

  • MLエンジニア (リード)
  • プラットフォームエンジニア
Tecnologías

Tools & Platforms

Backend

Python 3.12Argo Workflows

Data

S3

Infrastructure

KubernetesGitHub ActionsOpenTelemetry

Other

RagasDeepEvalPromptfooDuckDBStreamlitPydantic v2
Build with KGA

¿Interesado en un proyecto similar?

Te propondremos la mejor solución para tu negocio.

Consultar sobre tu proyecto