Skip to content
記事一覧に戻る
AI/AGI10 min

エージェント評価の現場 2026: LangSmith・Langfuse・Arize・Phoenix の使い分け

Agent Evaluation 2026: LangSmith, Langfuse, Arize, Phoenix Compared

Misaki HayashiAI Research Analyst
2026-04-1810 min
EvaluationLangSmithLangfuseArizeObservability

何を評価するのか

エージェントの「正しさ」は、最終回答の品質・ツール呼び出しの妥当性・コスト・レイテンシ・安全性、の 5 軸で測る必要がある。これらを継続的に追うために専用の評価基盤が必要になる。

4 ツールの比較

| 観点 | LangSmith | Langfuse | Arize Phoenix | Braintrust | | --- | --- | --- | --- | --- | | OSS | × | ○ | ○ | × | | 自社ホスト | × | ○ | ○ | × | | 評価ジョブ | ○ | ○ | ○ | ○ | | データセット管理 | ○ | ○ | ○ | ○ | | 価格帯 | 中 | OSS / 安 | OSS / 中 | 中-高 |

選定の指針

  • LangChain / LangGraph 中心 → LangSmith が摩擦最小
  • データを社内に置きたい → Langfuse / Phoenix(OSS 自社ホスト)
  • ML Ops チームが既に Arize 利用中 → Phoenix
  • 評価ワークフローの完成度重視 → Braintrust

評価の運用

  • ゴールデンセット(業務代表クエリ 100-300 件)を社内で整備
  • LLM-as-a-Judge は週次で校正(評価モデルもバージョン管理)
  • 本番トレースから 1% サンプリングして自動評価
  • リリース前に PR 単位で eval を回す CI

注意点

  • 評価モデルとして使う LLM は「対象モデルと同等以上のクラス」を選ぶ(Claude Opus 4.5 を Haiku で評価しない)
  • 評価データに PII を含めない設計(マスキング処理を必ず通す)
  • ヒト評価員のキャリブレーションは月次

まとめ

エージェントの本番運用に必須なのが評価基盤。社内 R&D では Langfuse OSS をベースに、CI と本番トレースの両方をフックして「常にスコアが見える」状態を維持している。導入は早ければ早いほど後段の品質改善が楽になる。

まずは無料相談から

お客様のIT課題をお聞かせください。最適なソリューションをご提案いたします。

お問い合わせはこちら