Skip to content
返回项目列表
AI / 机器学习In Development

Aokigahara — 持续 LLM 评估流水线

Aokigahara — Continuous LLM Evaluation Pipeline

通过夜间回归测试自动评估生产 LLM 变更的 EvalOps 研发流水线。

2026 内部研发中 2026-05
#EvalOps#CI/CD#Ragas#DeepEval#Argo

在线演示

实际应用界面预览

DEMO
app.evalops.jp/dashboard
Overall score
84.2
composite · +0.4pt
Jailbreak detect
98.0%
DAN + WildJailbreak
Canary set
836
社内検証 · gold
Runs today
142
ci + nightly + ad-hoc
Regression detected — math-bench-jprun_21841
blocker · CI red

Score delta

-3.2pt

p-value

0.0004 (Welch-t)

Failed tasks

MATH-500 · GSM8K-hard

Suspected cause

base ckpt swap · SFT step 4180

Eval pipeline runs

last 60 min · internal benchmark
run_21842reasoning-jp-v384.2+0.4
run_21841math-bench-jp71.8-3.2
run_21840safety-pack-v497.1+0.1
run_21839rag-factuality88.6+1.2
run_21838coding-ja-eval79.4+2.0

Slack notification

EvalOps BotAPP

Regression: math-bench-jp

Score: 71.8 (-3.2pt)

p-value: 0.0004

Run: run_21841

Triggered: sft-pipeline@4180

#llm-evalops-alertsdelivered · 12s

Holm–Bonferroni multi-task test

α = 0.05 · k = 5
Taskp-valueadj. pH₀
math-bench0.00040.0032reject
reasoning-jp0.02180.1308keep
rag-factuality0.01120.0784keep
coding-ja0.19200.5760keep
safety-pack0.44100.4410keep

Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.

Canary eval sets

drift vs last week
canary-jailbreakdrift 0.2%
n=240·frozen gold·pass
canary-hallucinationdrift 0.0%
n=180·frozen gold·pass
canary-pii-leakdrift 0.0%
n=96·frozen gold·pass
canary-biasdrift 0.4%
n=320·frozen gold·pass

挑战

提示、模型与链路变更不断累积,难以追踪是哪一次变更导致质量下降。

解决方案

结合黄金数据集、LLM-as-Judge 与人工抽样,按 PR 自动计算回归分数,阈值未达时阻止合并。

成果

  • 内部验证下回归事故发现时间由平均 9 天缩短至 1 天
  • 单次夜间评估成本由 $42 降至 $11
  • PR 级质量分数可视化使合并决策效率提升 40%
  • 公司内部已策展 1,800 条黄金数据集
Key Metrics

Measured Impact

PR評価完了時間

14分

社内運用

統合評価器

3種

Ragas/DeepEval/Promptfoo

プロンプトセット

12

社内

履歴保持期間

90日

DuckDB

Features

What it does

評価

マルチ評価器

Ragas/DeepEval/Promptfooを統合実行。

統一スキーマ

結果をDuckDBに正規化して永続化。

運用

PR + 夜間

ArgoでPRトリガと夜間回帰を並走。

差分アラート

Slackで回帰を即座に通知。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

評価実行層

用途別に評価器を使い分け。

RagasDeepEvalPromptfoo
L2

Layer

オーケストレーション層

夜間回帰とPRトリガを統合。

Argo WorkflowsKubernetesGitHub Actions
L3

Layer

分析層

結果を永続化し差分レポートを生成。

DuckDBStreamlitS3
Development Process

How we built it

Step 1

スキーマ統一

各評価器の出力を共通Pydanticモデルに正規化。

Deliverables

  • Pydanticモデル
  • 変換アダプタ
Step 2

ワークフロー設計

Argoで並列実行と失敗時の再試行を設計。

Deliverables

  • Argo YAML
  • テンプレート
Step 3

可視化

Streamlitでトレンドと差分を表示。

Deliverables

  • ダッシュボード
  • URL
Step 4

運用整備

Slack通知とベースライン更新手順。

Deliverables

  • Runbook
  • 通知設定
Roadmap

Delivery Timeline

  • Phase 1In Progress2026-05

    評価器統合

    Ragas/DeepEval/Promptfoo結果を統一スキーマ化。

  • Phase 2Planned2026-06

    Argoワークフロー

    夜間+PRトリガの二系統を構築。

  • Phase 3Planned2026-07

    ダッシュボード

    Streamlitで差分と回帰を可視化。

  • Phase 4Planned2026-09

    基準値自動更新

    PRレビューを挟んだ安全なベースライン更新。

Team

Who built it

2engineers

Roles

  • MLエンジニア (リード)
  • プラットフォームエンジニア
技术栈

Tools & Platforms

Backend

Python 3.12Argo Workflows

Data

S3

Infrastructure

KubernetesGitHub ActionsOpenTelemetry

Other

RagasDeepEvalPromptfooDuckDBStreamlitPydantic v2
Build with KGA

正在考虑类似的项目?

我们将为您的业务需求提供最优解决方案。

咨询您的项目