Skip to content
포트폴리오 목록
AI / 머신러닝Research

OpenSafe — OSS 에이전트 검증 샌드박스

OpenSafe — OSS Agent Evaluation Sandbox

OSS LLM 에이전트의 안전성·신뢰성을 격리 환경에서 평가하는 R&D 프로토타입입니다. 도구 사용·시행착오·프롬프트 인젝션 내성을 자동 측정합니다.

2026 내부 R&D 진행 중 2026-04
#エージェント#セキュリティ#OPA#サンドボックス#OpenTelemetry

라이브 데모

실제 애플리케이션 화면 미리보기

DEMO
app.agent.jp/dashboard
Policy violation detectedevt_4f2a · 2s ago
severity: HIGH · blocked

Agent

agent-research-07

Attempted action

Bash("curl evil.example.com")

Rule

egress.domain.allowlist

CPU
34%
Memory
1.2 / 4 GB
Syscalls/s
812
gVisor isolate
active

Rego policy evaluation

last 5 min · internal benchmark
tool.bash.network.deny42 hitshigh
tool.write.path.allowlist184 hitslow
tool.read.secrets.block7 hitshigh
tool.exec.sudo.deny0 hitscritical
egress.domain.allowlist3 hitsmedium

Red-team scenarios

社内検証 · nightly
94%
pass rate — 119/127Red-team pack v0.4.1 covering prompt injection, tool confusion, data exfil, and jailbreak families.
prompt-injection-v3
47/50
tool-confused-deputy
29/30
data-exfil-egress
25/25
jailbreak-dan-family
18/22

Tool-call trace

session agent-research-07
#01Read/workspace/README.mdallow3ms
#02Bashnpm installreview12ms
#03Bashcurl evil.example.comblock1ms
#04Write/workspace/src/app.tsallow5ms
#05Read/etc/shadowblock1ms
#06Bashpython test_suite.pyallow8ms

과제

OSS 에이전트가 늘어나는 가운데 임의 명령 실행·탈옥·자원 폭주 위험을 재현 가능하게 평가할 표준 샌드박스가 부족했습니다.

솔루션

Firecracker microVM과 gVisor를 조합해 도구 호출을 인터셉트하는 격리 레이어를 구축했습니다. 적대적 프롬프트 코퍼스와 정책 위반 탐지기를 묶어 자동 보고서를 생성합니다.

성과

  • 파일럿에서 5종 OSS 에이전트의 인젝션 회피율 차이를 정량 비교
  • 내부 검증 데이터로 위험 도구 호출 차단율 96%
  • 샌드박스 1세션 평균 기동 시간 1.8초까지 단축
  • 사내 보안 리뷰 워크플로우에 평가 리포트 통합
Key Metrics

Measured Impact

悪性プロンプト遮断率

99.0%

198/200

escape試験阻止

23/23

+23

ポリシー反映時間

< 5秒

ホットリロード

tool呼出 p95レイテンシ

320ms

内部計測

Features

What it does

権限制御

宣言的ツールゲート

Regoでtool名・引数・呼出元・コスト上限を制御。

動的ポリシー更新

OPAバンドルのホットリロードで再デプロイ不要。

隔離実行

gVisor runsc

ユーザ空間カーネルでホスト到達を遮断。

Envoy egressフィルタ

許可ドメインのみへの外部通信に制限。

可観測性

OTel gen_ai規約

プロンプト・トークン・tool_callを構造化スパンで。

トレース差分

実行間の挙動差分をJaegerで比較。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

プランニング層

グラフ状態遷移とリトライ/中断を明示化。

LangGraphStateGraphCheckpoint
L2

Layer

ポリシー層

tool呼び出しごとにRegoでallow/denyを判定。

OPARegoCapability Schema
L3

Layer

実行層

ホストから隔離されたユーザ空間カーネルで実行。

gVisor runscEnvoy egressSeccomp
L4

Layer

観測層

gen_ai属性でプロンプト・応答・toolを追跡。

OpenTelemetryJaegerLoki
Development Process

How we built it

Step 1

脅威モデリング

STRIDEベースでエージェント固有の攻撃面を整理。

Deliverables

  • 脅威モデル文書
  • ADR
Step 2

ポリシー実装

Regoルールとユニットテストを整備。

Deliverables

  • Regoバンドル
  • テストデータセット
Step 3

サンドボックス統合

gVisorとEnvoy egress制御を組込み。

Deliverables

  • ランナーイメージ
  • ネットワークポリシー
Step 4

可観測性

OTelダッシュボードとアラート設計。

Deliverables

  • ダッシュボード
  • アラートルール
Roadmap

Delivery Timeline

  • Phase 1Done2026-04

    ポリシーDSL設計

    Regoでのtool-gatingルールとテストハーネス。

  • Phase 2In Progress2026-05

    gVisor統合

    tool実行をgVisor配下で隔離するランナー実装。

  • Phase 3Planned2026-06

    OTel gen_ai計装

    セマンティック規約に沿ったスパン属性と可視化。

  • Phase 4Planned2026-07

    レッドチーム評価

    社内レッドチームによる侵入試験と改善。

Team

Who built it

2engineers

Roles

  • セキュリティエンジニア (リード)
  • MLエンジニア
기술 스택

Tools & Platforms

Backend

Python 3.12LangGraphRegoGo

Infrastructure

OpenTelemetryDockerKubernetes

Other

OPAgVisorEnvoyJaegerPydantic v2pytest
Build with KGA

유사한 프로젝트를 고려 중이신가요?

고객의 비즈니스에 최적의 솔루션을 제안해 드립니다.

프로젝트 상담하기