2026年のエージェントSDK地図
- 年末から2026年Q1にかけて、エージェントSDK市場は一気に5強時代へ突入した。Anthropic Agent SDK(Python/TypeScript 両対応、v0.9)、Vercel AI SDK 5(`generateText`+`experimental_agent`の統合)、LangGraph Studio(LangChain系の状態機械アプローチ)、Mastra(TypeScriptネイティブの軽量フレームワーク)、OpenAI Assistants v2(Responses API と統合された最新版)の5つが、それぞれ異なる設計思想を体現している。
重要なのは、これらは単なる「LLMラッパー」ではないという点だ。エージェントループ、ツール呼び出し、状態永続化、観測性、サブエージェント、並列実行、失敗時のリトライポリシーまでを扱う総合基盤として設計されている。本番投入の意思決定は、モデルの質以上にSDKの選定に依存する時代になった。
Anthropic Agent SDK: ReActループの規範実装
Anthropic Agent SDK はClaude Code そのものの内部エンジンを切り出したSDKで、`ClaudeAgentClient` を軸に `agent.run()` で完結するシンプルなAPIを持つ。ループは純粋なReActパターンで、`tool_use` と `tool_result` のメッセージ往復を内部で自動管理する。特筆すべきは「メモリツール」と「コンテキスト圧縮」がビルトインされている点で、200Kトークンを超える長時間会話でも自動的に要約・保存が走る。
Python版は `anthropic.agent.AgentClient`、TypeScript版は `@anthropic-ai/agent-sdk` で提供される。サブエージェント起動は `agent.spawn_subagent()` で透過的に行え、親子間のトークン使用量を個別に計測可能。本番環境ではサブエージェント単位で独立したAPIキーを割り当てることで、コスト監査を細粒化できる。
ツール定義は JSON Schema 互換で、`@tool` デコレータ(Python)または `defineTool()`(TS)で登録する。Managed Agents 機能と組み合わせればサーバーレスで動くエージェントをAnthropic側でホストでき、自前のランタイム運用が不要になる。
Vercel AI SDK 5: UI統合とストリーミング最適化
Vercel AI SDK 5 の強みはフロントエンド統合の圧倒的な洗練さだ。`useChat` フックから `experimental_agent` を呼び出すだけで、ツール実行中のUIストリーミング、部分結果のプログレッシブ表示、中断・再開までが宣言的に書ける。Next.js App Router との統合が密で、Server Actions 経由でエージェントを起動するパターンが事実上の標準になっている。
エージェントループは Plan-and-Execute 寄りで、`step` 単位のミドルウェア挿入が可能。`onStepFinish` コールバックで各ステップの出力を検査し、ガードレール違反時はループを打ち切れる。複数プロバイダ(Anthropic、OpenAI、Google、Mistral)を切り替えられる抽象化レイヤーも秀逸で、モデル選定を後から変えても呼び出し側コードが不変であることが多い。
一方、深い状態機械が必要なワークフロー(人間介入を挟む承認フロー等)ではやや力不足で、LangGraph との併用が現実的な選択肢になる。
LangGraph Studio: 状態機械としてのエージェント
LangGraph は「エージェント=有向グラフ」というメンタルモデルを徹底する。ノードが処理、エッジが遷移条件、`StateGraph` がループを駆動する。条件分岐、サイクル、ヒューマン・イン・ザ・ループ、チェックポイントといった制御フローを明示的に設計したいケースで圧倒的な表現力を発揮する。
- 年版では LangGraph Studio(Web IDE)が GA 入りし、グラフの可視化・ステップ実行・状態差分確認がブラウザで完結する。`Checkpoint` を Postgres に永続化することで、任意の過去状態から分岐して再実行できる「タイムトラベルデバッグ」が本番でも実用レベルになった。ただし学習コストは5強のなかで最も高い。
Tree Search 型のエージェント(複数の探索枝を評価し最良を採用)を組むには現状 LangGraph が最適で、`Send` API で分岐ノードを並列実行し、合流ノードでスコアリングする実装が定石だ。
Mastra と OpenAI Assistants v2
Mastra はTypeScriptネイティブの軽量フレームワークで、`Agent`、`Workflow`、`RAG` の3プリミティブで構成される。Vercel AI SDK 5 を薄くラップしつつ、ワークフローエンジンとして Inngest 互換のイベント駆動モデルを提供する点が特徴。スタートアップ規模の素早い立ち上げに向く。
OpenAI Assistants v2 は Responses API への統合で大きく刷新され、`threads` と `runs` の煩雑なモデルが `responses.create()` の1呼び出しに集約された。File Search、Code Interpreter、Function Calling がファーストクラスで、特にCode Interpreterのサンドボックス実行は現時点で他社より成熟している。
観測性: Langfuse・Arize・LangSmith
本番運用で最も差が出るのが観測性だ。Langfuse はOSSで自己ホスト可能、トレース単価の概念が無いため大規模運用で圧倒的に安価。Arize Phoenix はエバリュエーションに強く、オフライン評価ジョブの自動化で選ばれる。LangSmith は LangGraph との統合が最もシームレスで、グラフノード単位のレイテンシ分布がワンクリックで見られる。
KGAでは本番では Langfuse、評価CIでは Arize、LangGraph プロジェクトでのみ LangSmith を使い分けている。OpenTelemetry の semantic convention(`gen_ai.*` 属性)が2026年Q1にGA入りし、SDK側でも標準トレース出力が共通化されたため、バックエンド切り替えは以前より遥かに容易になった。
使い分けの判断基準
フロントエンド統合とUX重視 → Vercel AI SDK 5。Anthropic モデル主体で本番品質を最速で出したい → Anthropic Agent SDK。複雑な状態機械・人間承認フロー → LangGraph。TypeScript スタートアップ → Mastra。OpenAI モデル+Code Interpreter 必須 → Assistants v2。この5軸で判断すれば大きく外さない。