Skip to content
制作実績一覧
AI / 機械学習In Development

Aokigahara — 継続的LLM評価パイプライン

Aokigahara — Continuous LLM Evaluation Pipeline

プロンプト・モデル・アダプタのあらゆる変更に対して回帰テストを走らせるEvalOps基盤。Ragas/DeepEval/Promptfooを統合し、Argo Workflowsでスケジュール実行、DuckDBで結果を永続化する社内R&Dプロトタイプ。

2026 進行中 (社内検証) 2026-05
#EvalOps#CI/CD#Ragas#DeepEval#Argo

ライブデモ

実際のアプリケーション画面のプレビュー

DEMO
app.evalops.jp/dashboard
Overall score
84.2
composite · +0.4pt
Jailbreak detect
98.0%
DAN + WildJailbreak
Canary set
836
社内検証 · gold
Runs today
142
ci + nightly + ad-hoc
Regression detected — math-bench-jprun_21841
blocker · CI red

Score delta

-3.2pt

p-value

0.0004 (Welch-t)

Failed tasks

MATH-500 · GSM8K-hard

Suspected cause

base ckpt swap · SFT step 4180

Eval pipeline runs

last 60 min · internal benchmark
run_21842reasoning-jp-v384.2+0.4
run_21841math-bench-jp71.8-3.2
run_21840safety-pack-v497.1+0.1
run_21839rag-factuality88.6+1.2
run_21838coding-ja-eval79.4+2.0

Slack notification

EvalOps BotAPP

Regression: math-bench-jp

Score: 71.8 (-3.2pt)

p-value: 0.0004

Run: run_21841

Triggered: sft-pipeline@4180

#llm-evalops-alertsdelivered · 12s

Holm–Bonferroni multi-task test

α = 0.05 · k = 5
Taskp-valueadj. pH₀
math-bench0.00040.0032reject
reasoning-jp0.02180.1308keep
rag-factuality0.01120.0784keep
coding-ja0.19200.5760keep
safety-pack0.44100.4410keep

Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.

Canary eval sets

drift vs last week
canary-jailbreakdrift 0.2%
n=240·frozen gold·pass
canary-hallucinationdrift 0.0%
n=180·frozen gold·pass
canary-pii-leakdrift 0.0%
n=96·frozen gold·pass
canary-biasdrift 0.4%
n=320·frozen gold·pass

課題

LLMアプリはプロンプトやモデルを小さく変えるだけで挙動が大きく変わり、CI上で品質劣化を検知する仕組みがないまま本番に到達することが多い。評価ツールが乱立しており結果の比較も困難だった。

ソリューション

Promptfooをスモーク、Ragasを文書応答、DeepEvalをG-Evalと役割分担し、Argo Workflowsで夜間+PRトリガの二系統を運用。結果はDuckDBに統一スキーマで蓄積し、Streamlitダッシュボードで差分と回帰を可視化。基準値の自動更新はPR経由でレビューする。

成果

  • PRごとに平均14分で評価完了し、マージ前に劣化PRを検出(社内運用)
  • 夜間回帰で過去90日のスコア推移を追跡可能化
  • 3種類の評価器を統一スキーマに正規化し比較レポートを自動生成
  • 内部プロンプト12セットでの回帰差分アラートをSlackに配信
Key Metrics

Measured Impact

PR評価完了時間

14分

社内運用

統合評価器

3種

Ragas/DeepEval/Promptfoo

プロンプトセット

12

社内

履歴保持期間

90日

DuckDB

Features

What it does

評価

マルチ評価器

Ragas/DeepEval/Promptfooを統合実行。

統一スキーマ

結果をDuckDBに正規化して永続化。

運用

PR + 夜間

ArgoでPRトリガと夜間回帰を並走。

差分アラート

Slackで回帰を即座に通知。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

評価実行層

用途別に評価器を使い分け。

RagasDeepEvalPromptfoo
L2

Layer

オーケストレーション層

夜間回帰とPRトリガを統合。

Argo WorkflowsKubernetesGitHub Actions
L3

Layer

分析層

結果を永続化し差分レポートを生成。

DuckDBStreamlitS3
Development Process

How we built it

Step 1

スキーマ統一

各評価器の出力を共通Pydanticモデルに正規化。

Deliverables

  • Pydanticモデル
  • 変換アダプタ
Step 2

ワークフロー設計

Argoで並列実行と失敗時の再試行を設計。

Deliverables

  • Argo YAML
  • テンプレート
Step 3

可視化

Streamlitでトレンドと差分を表示。

Deliverables

  • ダッシュボード
  • URL
Step 4

運用整備

Slack通知とベースライン更新手順。

Deliverables

  • Runbook
  • 通知設定
Roadmap

Delivery Timeline

  • Phase 1In Progress2026-05

    評価器統合

    Ragas/DeepEval/Promptfoo結果を統一スキーマ化。

  • Phase 2Planned2026-06

    Argoワークフロー

    夜間+PRトリガの二系統を構築。

  • Phase 3Planned2026-07

    ダッシュボード

    Streamlitで差分と回帰を可視化。

  • Phase 4Planned2026-09

    基準値自動更新

    PRレビューを挟んだ安全なベースライン更新。

Team

Who built it

2engineers

Roles

  • MLエンジニア (リード)
  • プラットフォームエンジニア
技術スタック

Tools & Platforms

Backend

Python 3.12Argo Workflows

Data

S3

Infrastructure

KubernetesGitHub ActionsOpenTelemetry

Other

RagasDeepEvalPromptfooDuckDBStreamlitPydantic v2
Build with KGA

同様のプロジェクトをお考えですか?

お客様のビジネスに最適なソリューションをご提案いたします。

プロジェクトを相談する