Skip to content
Danh sách dự án
R&D nội bộIn Development

Aokigahara — Pipeline Đánh Giá LLM Liên Tục

Aokigahara — Continuous LLM Evaluation Pipeline

R&D nội bộ cho pipeline đánh giá LLM liên tục với phát hiện regression.

2026 R&D nội bộ 5 tháng 2026-05
#EvalOps#CI/CD#Ragas#DeepEval#Argo

Demo trực tiếp

Xem trước giao diện ứng dụng thực tế

DEMO
app.evalops.jp/dashboard
Overall score
84.2
composite · +0.4pt
Jailbreak detect
98.0%
DAN + WildJailbreak
Canary set
836
社内検証 · gold
Runs today
142
ci + nightly + ad-hoc
Regression detected — math-bench-jprun_21841
blocker · CI red

Score delta

-3.2pt

p-value

0.0004 (Welch-t)

Failed tasks

MATH-500 · GSM8K-hard

Suspected cause

base ckpt swap · SFT step 4180

Eval pipeline runs

last 60 min · internal benchmark
run_21842reasoning-jp-v384.2+0.4
run_21841math-bench-jp71.8-3.2
run_21840safety-pack-v497.1+0.1
run_21839rag-factuality88.6+1.2
run_21838coding-ja-eval79.4+2.0

Slack notification

EvalOps BotAPP

Regression: math-bench-jp

Score: 71.8 (-3.2pt)

p-value: 0.0004

Run: run_21841

Triggered: sft-pipeline@4180

#llm-evalops-alertsdelivered · 12s

Holm–Bonferroni multi-task test

α = 0.05 · k = 5
Taskp-valueadj. pH₀
math-bench0.00040.0032reject
reasoning-jp0.02180.1308keep
rag-factuality0.01120.0784keep
coding-ja0.19200.5760keep
safety-pack0.44100.4410keep

Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.

Canary eval sets

drift vs last week
canary-jailbreakdrift 0.2%
n=240·frozen gold·pass
canary-hallucinationdrift 0.0%
n=180·frozen gold·pass
canary-pii-leakdrift 0.0%
n=96·frozen gold·pass
canary-biasdrift 0.4%
n=320·frozen gold·pass

Thách thức

Phát hiện regression hiệu năng LLM qua các phiên bản prompt và model mà không cần chu trình review thủ công nặng nề.

Giải pháp

Pipeline CI đánh giá với bộ test dựa trên dataset, ngưỡng regression tự động và thông báo — chạy trên dữ liệu xác thực nội bộ.

Kết quả

  • 30+ bộ đánh giá chạy mỗi PR trong thí điểm nội bộ
  • Phát hiện regression đạt benchmark 95% trên thay đổi prompt tổng hợp
  • Beta nội bộ với 5 kỹ sư prompt — chu trình review rút ngắn ~50%
  • Chỉ R&D nội bộ — không có khách hàng trả phí
Key Metrics

Measured Impact

PR評価完了時間

14分

社内運用

統合評価器

3種

Ragas/DeepEval/Promptfoo

プロンプトセット

12

社内

履歴保持期間

90日

DuckDB

Features

What it does

評価

マルチ評価器

Ragas/DeepEval/Promptfooを統合実行。

統一スキーマ

結果をDuckDBに正規化して永続化。

運用

PR + 夜間

ArgoでPRトリガと夜間回帰を並走。

差分アラート

Slackで回帰を即座に通知。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

評価実行層

用途別に評価器を使い分け。

RagasDeepEvalPromptfoo
L2

Layer

オーケストレーション層

夜間回帰とPRトリガを統合。

Argo WorkflowsKubernetesGitHub Actions
L3

Layer

分析層

結果を永続化し差分レポートを生成。

DuckDBStreamlitS3
Development Process

How we built it

Step 1

スキーマ統一

各評価器の出力を共通Pydanticモデルに正規化。

Deliverables

  • Pydanticモデル
  • 変換アダプタ
Step 2

ワークフロー設計

Argoで並列実行と失敗時の再試行を設計。

Deliverables

  • Argo YAML
  • テンプレート
Step 3

可視化

Streamlitでトレンドと差分を表示。

Deliverables

  • ダッシュボード
  • URL
Step 4

運用整備

Slack通知とベースライン更新手順。

Deliverables

  • Runbook
  • 通知設定
Roadmap

Delivery Timeline

  • Phase 1In Progress2026-05

    評価器統合

    Ragas/DeepEval/Promptfoo結果を統一スキーマ化。

  • Phase 2Planned2026-06

    Argoワークフロー

    夜間+PRトリガの二系統を構築。

  • Phase 3Planned2026-07

    ダッシュボード

    Streamlitで差分と回帰を可視化。

  • Phase 4Planned2026-09

    基準値自動更新

    PRレビューを挟んだ安全なベースライン更新。

Team

Who built it

2engineers

Roles

  • MLエンジニア (リード)
  • プラットフォームエンジニア
Công nghệ sử dụng

Tools & Platforms

Backend

Python 3.12Argo Workflows

Data

S3

Infrastructure

KubernetesGitHub ActionsOpenTelemetry

Other

RagasDeepEvalPromptfooDuckDBStreamlitPydantic v2
Build with KGA

Bạn quan tâm đến dự án tương tự?

Chúng tôi sẽ đề xuất giải pháp tốt nhất cho doanh nghiệp của bạn.

Trao đổi về dự án