Skip to content
포트폴리오 목록
AI / 머신러닝Beta

Kagami — 멀티 프로바이더 LLM 게이트웨이

Kagami — Multi-provider LLM Gateway

OpenAI·Anthropic·로컬 vLLM을 단일 OpenAI 호환 API로 추상화하는 게이트웨이 R&D입니다. 비용·레이턴시·컴플라이언스에 따라 라우팅합니다.

2026 내부 베타 진행 중 2026-04
#LLMゲートウェイ#PII#コスト最適化#Envoy#マルチプロバイダ

라이브 데모

실제 애플리케이션 화면 미리보기

DEMO
app.llm.jp/dashboard
OpenAI
gpt-4o-mini
healthy318ms
Anthropic
claude-haiku-4.5
healthy412ms
Bedrock
titan-express
degraded1.2s
local vLLM
qwen2.5-32b-it
healthy184ms

Cost-routing decisions

live
req_8f4aSummarize quarterly earnings…claude-haiku-4.5$0.04
req_8f49Generate SQL for revenue reportlocal/qwen2.5-32b$0.12
req_8f48Translate JP → EN legal clausegpt-4o
req_8f47Classify support ticket intentlocal/qwen2.5-32b$0.08
req_8f46Extract entities from contractclaude-haiku-4.5$0.03
saved today: $18.42 34% cost reduction vs single-model

Throughput

-1h-30mnow
current rps130
peak (5m)148
avg tokens/req428

Latency p50 / p95 per provider

OpenAIp50 280ms · p95 520ms
Anthropicp50 360ms · p95 680ms
Bedrockp50 1100ms · p95 2400ms
vLLMp50 150ms · p95 290ms
Circuit breakers
openai.chat0/20
anthropic.messages1/20
bedrock.titan12/20
vllm.local0/20

PII redaction log

last 1h · internal benchmark
emailuser@●●●●●.com×42
phone_jp090-●●●●-●●●●×18
credit_card4●●● ●●●● ●●●● ●●42×3
my_number●●●●-●●●●-●●●●×1
ip_address192.168.●●●.●●●×11
75 PII tokens redacted · 0 leaks to provider APIs · presidio + regex rules

과제

팀별로 LLM SDK가 분산되어 비용 가시성과 키 관리가 무너지고, 페일오버 정책이 제각각이었습니다.

솔루션

Envoy 베이스 프록시 위에 토큰 기반 비용 측정·재시도·서킷 브레이커·PII 마스킹을 구현하고 OpenTelemetry로 관측성을 확보했습니다.

성과

  • 내부 베타에서 평균 LLM 비용 28% 절감
  • 실패 요청 자동 페일오버 성공률 99.2%
  • PII 마스킹 정책으로 사내 컴플라이언스 리뷰 통과
  • 단일 대시보드에서 8개 모델 사용량을 통합 추적
Key Metrics

Measured Impact

PII検出率(社内テスト)

96.5%

内部評価

APIキー集約

1拠点

12→1

トークン消費

-22%

社内シミュレーション

p95レイテンシ追加

+8ms

Envoy経由

Features

What it does

ガバナンス

PII赤字

日本語氏名・住所・マイナンバーをストリーム中に検出。

監査ログ

全リクエストにtrace_idと入出力ハッシュを記録。

ルーティング

コスト加重

トークン単価とSLOで最適プロバイダを選択。

フォールバック

障害時に代替プロバイダへ自動切替。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

エッジ層

全LLMトラフィックをEnvoyで集約。

Envoyext_authzTLS終端
L2

Layer

コントロールプレーン

Tenant/予算/ルートを管理。

GogRPCPostgreSQLVault
L3

Layer

データプレーン

ストリーミング中にPIIを逐次赤字。

RustTokioPresidio JA
L4

Layer

観測層

コスト・レイテンシ・検出数をダッシュボード化。

OpenTelemetryPrometheusLoki
Development Process

How we built it

Step 1

API設計

OpenAI互換+拡張ヘッダを定義。

Deliverables

  • OpenAPI
  • Protobuf
Step 2

PII検出

Presidio JA認識器の精度評価。

Deliverables

  • 評価レポート
  • パターン辞書
Step 3

ルーティング戦略

加重/フォールバック/サーキットブレーカ。

Deliverables

  • ルールDSL
  • シミュレータ
Step 4

運用基盤

Helmチャートとランブック整備。

Deliverables

  • Helm
  • Runbook
Roadmap

Delivery Timeline

  • Phase 1Done2026-04

    ルーティング基盤

    Envoy+Go control planeでプロバイダ振り分け。

  • Phase 2In Progress2026-05

    PII赤字

    PresidioのJA拡張とストリーミング対応。

  • Phase 3Planned2026-06

    コスト最適化

    トークン予算とSLOベースの加重ルーティング。

  • Phase 4Planned2026-07

    監査ログ統合

    SIEM連携と長期保管ポリシー。

Team

Who built it

3engineers

Roles

  • プラットフォームエンジニア (リード)
  • Rustエンジニア
  • セキュリティエンジニア
기술 스택

Tools & Platforms

Backend

Go 1.22Rust

Data

RedisPostgreSQL

Infrastructure

OpenTelemetryKubernetes

Other

Envoyext_authzMicrosoft PresidiogRPCProtobufHelmVault
Build with KGA

유사한 프로젝트를 고려 중이신가요?

고객의 비즈니스에 최적의 솔루션을 제안해 드립니다.

프로젝트 상담하기