2026년의 에이전트 SDK 지도
- 년 말부터 2026년 Q1에 걸쳐, 에이전트 SDK 시장은 일거에 5강 시대로 진입했습니다. Anthropic Agent SDK(Python/TypeScript 양대응, v0.9), Vercel AI SDK 5(`generateText` + `experimental_agent`의 통합), LangGraph Studio(LangChain 계열의 상태 기계 접근법), Mastra(TypeScript 네이티브의 경량 프레임워크), OpenAI Assistants v2(Responses API와 통합된 최신판)의 5가지가 각각 다른 설계 사상을 구현하고 있습니다.
중요한 것은 이것들이 단순한 "LLM 래퍼"가 아니라는 점입니다. 에이전트 루프, 툴 호출, 상태 영속화, 관찰 가능성, 서브에이전트, 병렬 실행, 실패 시 재시도 정책까지를 다루는 종합 기반으로 설계되어 있습니다. 프로덕션 투입의 의사결정은 모델의 품질 이상으로 SDK 선정에 의존하는 시대가 되었습니다.
Anthropic Agent SDK: ReAct 루프의 규범 구현
Anthropic Agent SDK는 Claude Code 그 자체의 내부 엔진을 분리한 SDK로, `ClaudeAgentClient`를 축으로 `agent.run()`으로 완결되는 단순한 API를 가집니다. 루프는 순수한 ReAct 패턴으로, `tool_use`와 `tool_result`의 메시지 교환을 내부에서 자동 관리합니다. 특기할 만한 것은 "메모리 툴"과 "컨텍스트 압축"이 빌트인되어 있다는 점으로, 200K토큰을 초과하는 장시간 대화에서도 자동으로 요약·저장이 이루어집니다.
Python 버전은 `anthropic.agent.AgentClient`, TypeScript 버전은 `@anthropic-ai/agent-sdk`로 제공됩니다. 서브에이전트 기동은 `agent.spawn_subagent()`로 투명하게 행해지며, 부모-자식 간 토큰 사용량을 개별로 계측 가능합니다. 프로덕션 환경에서는 서브에이전트 단위로 독립된 API 키를 할당함으로써 비용 감사를 세밀화할 수 있습니다.
툴 정의는 JSON Schema 호환으로, `@tool` 데코레이터(Python) 또는 `defineTool()`(TypeScript)로 등록합니다. Managed Agents 기능과 조합하면 서버리스로 동작하는 에이전트를 Anthropic 측에서 호스팅할 수 있어, 자체 런타임 운용이 불필요해집니다.
Vercel AI SDK 5: UI 통합과 스트리밍 최적화
Vercel AI SDK 5의 강점은 프론트엔드 통합의 압도적인 세련됨입니다. `useChat` 훅에서 `experimental_agent`를 호출하는 것만으로, 툴 실행 중의 UI 스트리밍, 부분 결과의 프로그레시브 표시, 중단·재개까지가 선언적으로 작성 가능합니다. Next.js App Router와의 통합이 긴밀하며, Server Actions를 통해 에이전트를 기동하는 패턴이 사실상의 표준이 되었습니다.
에이전트 루프는 Plan-and-Execute에 가까우며, `step` 단위의 미들웨어 삽입이 가능합니다. `onStepFinish` 콜백으로 각 스텝의 출력을 검사하여, 가드레일 위반 시에는 루프를 중단할 수 있습니다. 복수 프로바이더(Anthropic, OpenAI, Google, Mistral)를 전환할 수 있는 추상화 레이어도 탁월하며, 모델 선정을 나중에 변경해도 호출 측 코드가 변경되지 않는 경우가 많습니다.
한편, 깊은 상태 기계가 필요한 워크플로(사람 개입을 끼운 승인 플로 등)에서는 다소 역부족이며, LangGraph와의 병용이 현실적인 선택지가 됩니다.
LangGraph Studio: 상태 기계로서의 에이전트
LangGraph는 "에이전트 = 유향 그래프"라는 멘탈 모델을 철저히 합니다. 노드가 처리, 엣지가 전이 조건, `StateGraph`가 루프를 구동합니다. 조건 분기, 사이클, 휴먼 인 더 루프, 체크포인트 같은 제어 흐름을 명시적으로 설계하고 싶은 경우에 압도적인 표현력을 발휘합니다.
- 년판에서는 LangGraph Studio(Web IDE)가 GA에 진입하여, 그래프의 시각화·스텝 실행·상태 차분 확인이 브라우저에서 완결됩니다. `Checkpoint`를 Postgres에 영속화함으로써, 임의의 과거 상태에서 분기하여 재실행할 수 있는 "타임트래블 디버깅"이 프로덕션에서도 실용 레벨이 되었습니다. 단, 학습 비용은 5강 중에서 가장 높습니다.
Tree Search형 에이전트(복수의 탐색 분기를 평가하여 최적을 채택)를 구성하는 데는 현재 LangGraph가 최적이며, `Send` API로 분기 노드를 병렬 실행하고 합류 노드에서 스코어링하는 구현이 정석입니다.
Mastra와 OpenAI Assistants v2
Mastra는 TypeScript 네이티브의 경량 프레임워크로, `Agent`, `Workflow`, `RAG`의 3가지 프리미티브로 구성됩니다. Vercel AI SDK 5를 얇게 래핑하면서, 워크플로 엔진으로 Inngest 호환의 이벤트 드리븐 모델을 제공하는 점이 특징입니다. 스타트업 규모의 빠른 시작에 적합합니다.
OpenAI Assistants v2는 Responses API와의 통합으로 크게 쇄신되어, `threads`와 `runs`의 번거로운 모델이 `responses.create()`의 단일 호출로 집약되었습니다. File Search, Code Interpreter, Function Calling이 퍼스트 클래스로 제공되며, 특히 Code Interpreter의 샌드박스 실행은 현시점에서 다른 회사보다 성숙해 있습니다.
관찰 가능성: Langfuse, Arize, LangSmith
프로덕션 운용에서 가장 차이가 나는 것이 관찰 가능성입니다. Langfuse는 OSS로 자체 호스팅 가능하며, 트레이스 단가의 개념이 없어 대규모 운용에서 압도적으로 저렴합니다. Arize Phoenix는 평가에 강하며, 오프라인 평가 잡의 자동화로 선택됩니다. LangSmith는 LangGraph와의 통합이 가장 원활하며, 그래프 노드 단위의 레이턴시 분포를 원클릭으로 확인할 수 있습니다.
KGA에서는 프로덕션에서는 Langfuse, 평가 CI에서는 Arize, LangGraph 프로젝트에서만 LangSmith를 구분하여 사용하고 있습니다. OpenTelemetry의 semantic convention(`gen_ai.*` 속성)이 2026년 Q1에 GA에 진입하여, SDK 측에서도 표준 트레이스 출력이 공통화되었기 때문에 백엔드 전환은 이전보다 훨씬 용이해졌습니다.
구분 사용의 판단 기준
프론트엔드 통합과 UX 중시 → Vercel AI SDK 5. Anthropic 모델 중심으로 프로덕션 품질을 최단으로 내고 싶다 → Anthropic Agent SDK. 복잡한 상태 기계·사람 승인 플로 → LangGraph. TypeScript 스타트업 → Mastra. OpenAI 모델 + Code Interpreter 필수 → Assistants v2. 이 5가지 축으로 판단하면 크게 벗어나지 않습니다.