Skip to content
Lista de proyectos
IA / SeguridadResearch

OpenSafe — Sandbox de Agentes con Capability Gating

OpenSafe — OSS Agent Evaluation Sandbox

Sandbox open-source para ejecución de agentes LLM con capability gating vía OPA/Rego y aislamiento gVisor. Prototipo de I+D para validar políticas de seguridad en agentes autónomos.

2026 Beta interna 2026-04
#エージェント#セキュリティ#OPA#サンドボックス#OpenTelemetry

Demo en vivo

Vista previa de la pantalla real de la aplicación

DEMO
app.agent.jp/dashboard
Policy violation detectedevt_4f2a · 2s ago
severity: HIGH · blocked

Agent

agent-research-07

Attempted action

Bash("curl evil.example.com")

Rule

egress.domain.allowlist

CPU
34%
Memory
1.2 / 4 GB
Syscalls/s
812
gVisor isolate
active

Rego policy evaluation

last 5 min · internal benchmark
tool.bash.network.deny42 hitshigh
tool.write.path.allowlist184 hitslow
tool.read.secrets.block7 hitshigh
tool.exec.sudo.deny0 hitscritical
egress.domain.allowlist3 hitsmedium

Red-team scenarios

社内検証 · nightly
94%
pass rate — 119/127Red-team pack v0.4.1 covering prompt injection, tool confusion, data exfil, and jailbreak families.
prompt-injection-v3
47/50
tool-confused-deputy
29/30
data-exfil-egress
25/25
jailbreak-dan-family
18/22

Tool-call trace

session agent-research-07
#01Read/workspace/README.mdallow3ms
#02Bashnpm installreview12ms
#03Bashcurl evil.example.comblock1ms
#04Write/workspace/src/app.tsallow5ms
#05Read/etc/shadowblock1ms
#06Bashpython test_suite.pyallow8ms

Desafío

Los agentes LLM autónomos ejecutando código arbitrario en entornos compartidos representan un riesgo operacional serio. Faltaba una capa estandarizada de policy-as-code que combinara autorización fina y aislamiento de runtime.

Solución

Combinamos OPA/Rego para decisiones de capability gating con runtime gVisor para aislamiento de syscalls. Cada llamada de herramienta del agente pasa por evaluación de política antes de ejecución, y los logs estructurados alimentan auditoría. Implementación como beta interna sin clientes pagos.

Resultados

  • Bloqueo del 100% de syscalls fuera de policy en pruebas internas (datos internos)
  • Overhead promedio de 14ms por decisión OPA (datos internos)
  • 47 políticas Rego cubriendo file/network/exec (datos internos)
  • Cero escapes de sandbox en 8.000 ejecuciones de fuzzing interno
Key Metrics

Measured Impact

悪性プロンプト遮断率

99.0%

198/200

escape試験阻止

23/23

+23

ポリシー反映時間

< 5秒

ホットリロード

tool呼出 p95レイテンシ

320ms

内部計測

Features

What it does

権限制御

宣言的ツールゲート

Regoでtool名・引数・呼出元・コスト上限を制御。

動的ポリシー更新

OPAバンドルのホットリロードで再デプロイ不要。

隔離実行

gVisor runsc

ユーザ空間カーネルでホスト到達を遮断。

Envoy egressフィルタ

許可ドメインのみへの外部通信に制限。

可観測性

OTel gen_ai規約

プロンプト・トークン・tool_callを構造化スパンで。

トレース差分

実行間の挙動差分をJaegerで比較。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

プランニング層

グラフ状態遷移とリトライ/中断を明示化。

LangGraphStateGraphCheckpoint
L2

Layer

ポリシー層

tool呼び出しごとにRegoでallow/denyを判定。

OPARegoCapability Schema
L3

Layer

実行層

ホストから隔離されたユーザ空間カーネルで実行。

gVisor runscEnvoy egressSeccomp
L4

Layer

観測層

gen_ai属性でプロンプト・応答・toolを追跡。

OpenTelemetryJaegerLoki
Development Process

How we built it

Step 1

脅威モデリング

STRIDEベースでエージェント固有の攻撃面を整理。

Deliverables

  • 脅威モデル文書
  • ADR
Step 2

ポリシー実装

Regoルールとユニットテストを整備。

Deliverables

  • Regoバンドル
  • テストデータセット
Step 3

サンドボックス統合

gVisorとEnvoy egress制御を組込み。

Deliverables

  • ランナーイメージ
  • ネットワークポリシー
Step 4

可観測性

OTelダッシュボードとアラート設計。

Deliverables

  • ダッシュボード
  • アラートルール
Roadmap

Delivery Timeline

  • Phase 1Done2026-04

    ポリシーDSL設計

    Regoでのtool-gatingルールとテストハーネス。

  • Phase 2In Progress2026-05

    gVisor統合

    tool実行をgVisor配下で隔離するランナー実装。

  • Phase 3Planned2026-06

    OTel gen_ai計装

    セマンティック規約に沿ったスパン属性と可視化。

  • Phase 4Planned2026-07

    レッドチーム評価

    社内レッドチームによる侵入試験と改善。

Team

Who built it

2engineers

Roles

  • セキュリティエンジニア (リード)
  • MLエンジニア
Tecnologías

Tools & Platforms

Backend

Python 3.12LangGraphRegoGo

Infrastructure

OpenTelemetryDockerKubernetes

Other

OPAgVisorEnvoyJaegerPydantic v2pytest
Build with KGA

¿Interesado en un proyecto similar?

Te propondremos la mejor solución para tu negocio.

Consultar sobre tu proyecto