何を評価するのか
エージェントの「正しさ」は、最終回答の品質・ツール呼び出しの妥当性・コスト・レイテンシ・安全性、の 5 軸で測る必要がある。これらを継続的に追うために専用の評価基盤が必要になる。
4 ツールの比較
| 観点 | LangSmith | Langfuse | Arize Phoenix | Braintrust | | --- | --- | --- | --- | --- | | OSS | × | ○ | ○ | × | | 自社ホスト | × | ○ | ○ | × | | 評価ジョブ | ○ | ○ | ○ | ○ | | データセット管理 | ○ | ○ | ○ | ○ | | 価格帯 | 中 | OSS / 安 | OSS / 中 | 中-高 |
選定の指針
- LangChain / LangGraph 中心 → LangSmith が摩擦最小
- データを社内に置きたい → Langfuse / Phoenix(OSS 自社ホスト)
- ML Ops チームが既に Arize 利用中 → Phoenix
- 評価ワークフローの完成度重視 → Braintrust
評価の運用
- ゴールデンセット(業務代表クエリ 100-300 件)を社内で整備
- LLM-as-a-Judge は週次で校正(評価モデルもバージョン管理)
- 本番トレースから 1% サンプリングして自動評価
- リリース前に PR 単位で eval を回す CI
注意点
- 評価モデルとして使う LLM は「対象モデルと同等以上のクラス」を選ぶ(Claude Opus 4.5 を Haiku で評価しない)
- 評価データに PII を含めない設計(マスキング処理を必ず通す)
- ヒト評価員のキャリブレーションは月次
まとめ
エージェントの本番運用に必須なのが評価基盤。社内 R&D では Langfuse OSS をベースに、CI と本番トレースの両方をフックして「常にスコアが見える」状態を維持している。導入は早ければ早いほど後段の品質改善が楽になる。