KGA는 어떤 IT 서비스를 제공하나요?

KGA는 소프트웨어 설치·설정, SaaS 시스템 유지보수, 애플리케이션 설정 대행, 기술 지원, 디지털 컨설팅(웹사이트 제작 포함), 보안 서비스, 데이터 관리·백업 등 종합적인 IT 지원 서비스를 제공합니다.

서비스 지역은 어디인가요?

시즈오카현 코사이시를 거점으로 일본 전국에 원격 지원을 제공합니다. 방문 지원은 도카이 지역을 중심으로 대응합니다.

계약 전에 상담이 가능한가요?

네, 초기 상담과 견적은 완전히 무료입니다. 고객의 IT 과제를 듣고 최적의 솔루션을 제안합니다.

긴급 지원이 가능한가요?

네, 프리미엄 플랜은 24시간 긴급 대응이 가능합니다. 스탠다드 플랜도 영업시간 내 우선 대응을 제공합니다.

해외 TV 앱 설정도 가능한가요?

네, 해외 TV 애플리케이션 및 미디어 플레이어의 설치·설정을 지원합니다. 합법적인 해외 콘텐츠 접근 환경을 구축해 드립니다.

다국어 지원이 가능한가요?

일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어의 9개 언어로 지원을 제공합니다.

초기 비용이나 숨겨진 요금이 있나요?

없습니다. 표시된 모든 가격은 세금이 포함된 최종 금액입니다. 초기 비용, 숨겨진 요금, 예상치 못한 청구가 일절 발생하지 않습니다. 표시된 그대로 결제하시면 됩니다.

나중에 플랜을 변경할 수 있나요?

네, 언제든지 업그레이드, 다운그레이드, 해지하실 수 있습니다. 업그레이드는 즉시 적용되며 차액은 일할 계산됩니다. 다운그레이드는 다음 갱신 주기부터 적용됩니다.

이용 가능한 결제 수단은 무엇인가요?

Komoju를 통해 주요 신용카드(Visa, Mastercard, JCB, American Express)를 이용하실 수 있으며, 일본 내 계좌이체 및 편의점 결제도 지원합니다. 비즈니스 IT 플랜 고객에게는 세금계산서 발행도 가능합니다.

환불이 가능한가요?

네. 모든 연간 플랜에 대해 14일 전액 환불 보장을 제공하며, 사유를 묻지 않습니다. 월 정기 비즈니스 IT 플랜은 언제든지 해지 가능하며 미사용 기간에 대해 일할 환불됩니다.

연간 플랜과 비즈니스 IT 플랜의 차이는 무엇인가요?

연간 플랜은 개인 및 소규모 팀을 위한 앱 설정과 지원을 제공합니다. 비즈니스 IT 플랜은 웹사이트 개발, 시스템 운영, 자동화, 보안, 전담 계정 매니저까지 포함된 기업용 종합 월 구독 서비스입니다.

한국어로도 지원되나요?

네. 일본어, 영어, 포르투갈어, 한국어, 중국어, 말레이어, 필리핀어, 베트남어, 스페인어 9개 언어로 이메일, 채팅, 화상 회의를 통해 완벽하게 지원해 드립니다.

RAG에서 에이전틱 워크플로우로 이전: 전략과 평가 재설계 — KGA Tech Blog

静的 RAG が負け始めている理由

〜2024年にかけて、エンタープライズ AI の標準アーキテクチャは事実上 RAG（Retrieval-Augmented Generation）だった。ベクトル DB に社内ドキュメントを投入し、ユーザーの質問をエンベディングで類似検索し、上位 k 件を LLM のコンテキストに注入して回答させる — この構成は実装容易性と初期精度の両面で優れ、多くの企業が PoC から本番運用へ素早く到達できた。しかし 2025年後半から、静的 RAG の限界が業務ユースケースで明確になってきた。

第一の問題は「質問の1ラウンド性」だ。RAG は基本的に「質問 → 検索 → 回答」の単発処理であり、複雑な業務質問（例: 「過去3ヶ月の営業データから、A商品の低迷要因を競合情報と照合して3つ挙げよ」）には不向きだ。検索と推論が分離されており、推論過程で「別の検索が必要」と判明しても自動的に再検索できない。人間のナレッジワーカーが当然行う「調べる→考える→追加で調べる→結論を出す」という反復プロセスを、静的 RAG は表現できない。

第二の問題は「ツール使用の欠落」である。業務質問の回答には検索だけでなく、社内 API 呼び出し、計算、グラフ生成、外部 SaaS 問い合わせなど、多様なツール操作が必要になる。静的 RAG はドキュメント検索に特化しているため、ツール統合が後付けの継ぎ接ぎになる。第三の問題は評価の困難さで、固定データセットによる Precision/Recall 評価では、業務上の「役に立ったか」を測れない。

これらの課題を構造的に解決するのがエージェンティックワークフローである。LLM が自律的にツールを選択・実行し、複数ステップで情報を収集・推論し、最終成果物を生成する。検索は「数あるツールの一つ」に格下げされ、エージェントの判断で使われる。2026年の新規エンタープライズ AI プロジェクトの過半数がこのパターンを第一選択にしている。

RAG を捨てる必要はない: ハイブリッド設計の勘所

誤解してはならないのは、エージェンティックワークフローは RAG を置き換えるのではなく、RAG を「内部ツールの一つ」として組み込む構成になる、ということだ。検索という行為自体は依然として業務質問の中核であり、高品質なベクトル検索・BM25・ハイブリッド検索の価値は変わらない。変わるのは「誰が」検索を発動するか、である。

推奨されるハイブリッド設計は次のようになる。エージェントのツールセットに retrieve_documents、retrieve_structured_data、query_api、compute、generate_chart などを登録し、システムプロンプトで「まず情報を集め、不足があれば追加取得し、最終回答を生成せよ」と指示する。retrieve_documents は従来の RAG エンジンそのままであり、ベクトル DB、リランカー、ハイブリッド検索の最適化はすべて再利用できる。

さらに、質問の複雑度に応じて「RAG だけで済ませる軽量パス」と「エージェントで深掘りする重量パス」を分岐させるルーターも実装する。単純な事実確認はレイテンシ優先で RAG のみ、複雑な分析はエージェントに委ねる。ルーター自体も小型 LLM で実装でき、全体のコスト最適化に効く。

コストと品質のトレードオフ

エージェンティックワークフローは品質向上と引き換えに、コストとレイテンシが大幅に増える。単発 RAG は LLM 呼び出し 1回で完結するが、エージェントは平均 5〜15回の LLM 呼び出しを行う。推論モデル（OpenAI o3、Claude Opus 4.7 等の拡張思考モード）を併用すると、1クエリあたりのコストが 10〜50倍になるケースも珍しくない。

したがってコスト設計は必須だ。推奨パターンは「モデル階層化」である。プランニング（次に何をすべきか決める）は高性能推論モデル、情報抽出や要約は中型モデル、最終出力の整形は軽量モデル、と段階ごとに使い分ける。これにより平均コストを 3〜5倍程度に抑えつつ、品質は静的 RAG の 2倍以上に向上させられる。

レイテンシ対策としては、ツール呼び出しの並列化が決定打になる。従来のエージェント実装はツールを直列実行していたが、2026年のフレームワーク（LangGraph、AutoGen、Mastra、Claude Agent SDK 等）はいずれも並列ツール呼び出しを標準サポートする。情報収集フェーズで複数ソースを同時クエリし、結果を統合してから次の意思決定に進む構成で、体感レイテンシを半減できる。

キャッシュ戦略も重要で、プロンプトキャッシュによりシステムプロンプトと長いツール定義の再送信コストをゼロに近づけられる。キャッシュ未使用と使用でコストが 70〜90% 違うこともある。

ガバナンスの大変更: 非決定性との付き合い方

RAG からエージェントへの移行で最も過小評価されているのが、ガバナンス側の変更だ。静的 RAG は「同じ質問には同じ回答」が成立しやすく、決定性に近い挙動を示す。一方エージェントは非決定的で、同じ質問でもツール選択順や情報の選定が変わり、回答が揺らぐ。金融・医療・法務など規制業界では、この非決定性が規制対応の障害になりうる。

対策として、2026年のエンタープライズエージェント設計では「ステップログの保存と再生可能性」が必須要件化している。エージェントの各ステップ（選択ツール、引数、結果、中間推論）を全て保存し、後から「なぜこの回答になったか」を再構成できるようにする。監査時には、特定の回答について「この資料を参照し、このツールを呼び、この中間判断を経て最終回答に至った」と説明可能でなければならない。

権限管理も変わる。RAG では「ユーザーが見られるドキュメントだけを検索対象にする」というフィルタリングで十分だったが、エージェントでは「そのユーザーに代わって、どのツールをどの権限で呼んでよいか」をきめ細かく制御する必要がある。前章で触れた Non-Human Identity と OAuth for Agents がここで効いてくる。

移行プレイブック: 段階的移行の6フェーズ

実務的な移行手順として、筆者が複数企業で実施した 6フェーズ・プレイブックを示す。第1フェーズは既存 RAG の評価ハーネス強化。エージェント化後の比較基準を作るため、50〜200件の代表的業務クエリに対する期待回答をゴールデンセットとして整備する。第2フェーズはツール抽出で、現行 RAG 周辺の補助処理（スプレッドシート検索、API 呼び出し等）をツール関数としてリファクタリングする。

第3フェーズは最初のエージェント実装。最小構成（retrieve + 1〜2ツール）でシンプルなエージェントループを組み、ゴールデンセットで RAG と対戦させる。第4フェーズはツール拡張で、業務上必要なツールを段階的に増やす。第5フェーズは本番シャドーデプロイで、ユーザーには RAG の回答を返しつつエージェントも並行実行し、結果をログに蓄積して品質を比較する。第6フェーズは段階的切替で、クエリ種別ごとに RAG → エージェントへ移行する。

この段階的移行の鍵は「シャドーデプロイ期間を最低 4週間確保する」ことだ。エージェントは失敗パターンが多様で、本番トラフィックを浴びないと発見できないエッジケースが必ず存在する。

評価ハーネスの再構築: LLM-as-a-Judge と行動評価

RAG 時代の評価指標（Precision@k、Recall@k、MRR）はエージェント評価には不十分だ。エージェントは「最終回答の正しさ」だけでなく「到達経路の妥当性」も評価する必要がある。2026年の主流は次の3層評価である。第1層は最終回答品質で、LLM-as-a-Judge（別の LLM に採点させる）と人手評価の組み合わせ。第2層は行動品質で、適切なツールを適切な順序で呼んだか、無駄な呼び出しがないかを評価。第3層はコスト効率で、トークン消費・レイテンシ・ツール呼び出し数。

LLM-as-a-Judge の実装では、Judge 用プロンプトに評価観点を構造化して与え、回答ごとに 1〜5 のスコアと根拠を出力させる。バイアス対策として、複数の Judge モデル（Claude、GPT、Gemini）でクロスチェックする手法や、Pairwise 評価が用いられる。行動評価には LangSmith、Braintrust、Arize、Phoenix などの LLM Ops プラットフォームが使われ、エージェント実行トレースを自動記録し、ステップごとのレイテンシ・コスト・失敗理由を可視化する。

おわりに: 段階的移行と正直な評価が鍵

RAG からエージェンティックワークフローへの移行は、2026年のエンタープライズ AI における不可逆な潮流である。しかし「いきなり全部をエージェント化する」のは失敗への近道だ。既存 RAG の資産を活かし、評価ハーネスを整備した上で、段階的にエージェント化を進める。品質・コスト・ガバナンスの3軸で継続的に測定し、正直に比較する文化を持てた組織だけが、エージェント時代の恩恵を本当に享受できる。

RAG에서 에이전틱 워크플로우로 이전: 전략과 평가 재설계