Skip to content
포트폴리오 목록
AI / 머신러닝In Development

Aokigahara — 지속적 LLM 평가 파이프라인

Aokigahara — Continuous LLM Evaluation Pipeline

프로덕션 LLM 변경을 야간 회귀 테스트로 자동 평가하는 EvalOps R&D 파이프라인입니다.

2026 내부 R&D 진행 중 2026-05
#EvalOps#CI/CD#Ragas#DeepEval#Argo

라이브 데모

실제 애플리케이션 화면 미리보기

DEMO
app.evalops.jp/dashboard
Overall score
84.2
composite · +0.4pt
Jailbreak detect
98.0%
DAN + WildJailbreak
Canary set
836
社内検証 · gold
Runs today
142
ci + nightly + ad-hoc
Regression detected — math-bench-jprun_21841
blocker · CI red

Score delta

-3.2pt

p-value

0.0004 (Welch-t)

Failed tasks

MATH-500 · GSM8K-hard

Suspected cause

base ckpt swap · SFT step 4180

Eval pipeline runs

last 60 min · internal benchmark
run_21842reasoning-jp-v384.2+0.4
run_21841math-bench-jp71.8-3.2
run_21840safety-pack-v497.1+0.1
run_21839rag-factuality88.6+1.2
run_21838coding-ja-eval79.4+2.0

Slack notification

EvalOps BotAPP

Regression: math-bench-jp

Score: 71.8 (-3.2pt)

p-value: 0.0004

Run: run_21841

Triggered: sft-pipeline@4180

#llm-evalops-alertsdelivered · 12s

Holm–Bonferroni multi-task test

α = 0.05 · k = 5
Taskp-valueadj. pH₀
math-bench0.00040.0032reject
reasoning-jp0.02180.1308keep
rag-factuality0.01120.0784keep
coding-ja0.19200.5760keep
safety-pack0.44100.4410keep

Sequential Holm correction prevents false regression alerts across correlated evals. Only math-bench crosses the family-wise threshold.

Canary eval sets

drift vs last week
canary-jailbreakdrift 0.2%
n=240·frozen gold·pass
canary-hallucinationdrift 0.0%
n=180·frozen gold·pass
canary-pii-leakdrift 0.0%
n=96·frozen gold·pass
canary-biasdrift 0.4%
n=320·frozen gold·pass

과제

프롬프트·모델·체인 변경이 누적되며 어떤 변경이 품질을 떨어뜨렸는지 추적 불가능했습니다.

솔루션

황금 데이터셋과 LLM-as-Judge, 휴먼 인 더 루프 샘플링을 묶어 PR 단위 회귀 점수를 자동 계산하고 임계값 위반 시 머지를 차단합니다.

성과

  • 사내 검증에서 회귀 사고 발견까지의 시간 평균 9일 → 1일
  • 야간 평가 1실행 비용 $42 → $11
  • PR 단위 품질 점수 가시화로 머지 결정 효율 +40%
  • 황금 데이터셋 1,800건 사내 큐레이션
Key Metrics

Measured Impact

PR評価完了時間

14分

社内運用

統合評価器

3種

Ragas/DeepEval/Promptfoo

プロンプトセット

12

社内

履歴保持期間

90日

DuckDB

Features

What it does

評価

マルチ評価器

Ragas/DeepEval/Promptfooを統合実行。

統一スキーマ

結果をDuckDBに正規化して永続化。

運用

PR + 夜間

ArgoでPRトリガと夜間回帰を並走。

差分アラート

Slackで回帰を即座に通知。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

評価実行層

用途別に評価器を使い分け。

RagasDeepEvalPromptfoo
L2

Layer

オーケストレーション層

夜間回帰とPRトリガを統合。

Argo WorkflowsKubernetesGitHub Actions
L3

Layer

分析層

結果を永続化し差分レポートを生成。

DuckDBStreamlitS3
Development Process

How we built it

Step 1

スキーマ統一

各評価器の出力を共通Pydanticモデルに正規化。

Deliverables

  • Pydanticモデル
  • 変換アダプタ
Step 2

ワークフロー設計

Argoで並列実行と失敗時の再試行を設計。

Deliverables

  • Argo YAML
  • テンプレート
Step 3

可視化

Streamlitでトレンドと差分を表示。

Deliverables

  • ダッシュボード
  • URL
Step 4

運用整備

Slack通知とベースライン更新手順。

Deliverables

  • Runbook
  • 通知設定
Roadmap

Delivery Timeline

  • Phase 1In Progress2026-05

    評価器統合

    Ragas/DeepEval/Promptfoo結果を統一スキーマ化。

  • Phase 2Planned2026-06

    Argoワークフロー

    夜間+PRトリガの二系統を構築。

  • Phase 3Planned2026-07

    ダッシュボード

    Streamlitで差分と回帰を可視化。

  • Phase 4Planned2026-09

    基準値自動更新

    PRレビューを挟んだ安全なベースライン更新。

Team

Who built it

2engineers

Roles

  • MLエンジニア (リード)
  • プラットフォームエンジニア
기술 스택

Tools & Platforms

Backend

Python 3.12Argo Workflows

Data

S3

Infrastructure

KubernetesGitHub ActionsOpenTelemetry

Other

RagasDeepEvalPromptfooDuckDBStreamlitPydantic v2
Build with KGA

유사한 프로젝트를 고려 중이신가요?

고객의 비즈니스에 최적의 솔루션을 제안해 드립니다.

프로젝트 상담하기