Skip to content
Voltar ao Portfólio
IA / SegurançaResearch

OpenSafe — Sandbox de Agentes com Capability Gating

OpenSafe — OSS Agent Evaluation Sandbox

Sandbox open-source para execução de agentes LLM com capability gating via OPA/Rego e isolamento gVisor. Protótipo de P&D para validar políticas de segurança em agentes autônomos.

2026 Beta interna 2026-04
#エージェント#セキュリティ#OPA#サンドボックス#OpenTelemetry

Demonstração ao Vivo

Prévia da interface real do aplicativo

DEMO
app.agent.jp/dashboard
Policy violation detectedevt_4f2a · 2s ago
severity: HIGH · blocked

Agent

agent-research-07

Attempted action

Bash("curl evil.example.com")

Rule

egress.domain.allowlist

CPU
34%
Memory
1.2 / 4 GB
Syscalls/s
812
gVisor isolate
active

Rego policy evaluation

last 5 min · internal benchmark
tool.bash.network.deny42 hitshigh
tool.write.path.allowlist184 hitslow
tool.read.secrets.block7 hitshigh
tool.exec.sudo.deny0 hitscritical
egress.domain.allowlist3 hitsmedium

Red-team scenarios

社内検証 · nightly
94%
pass rate — 119/127Red-team pack v0.4.1 covering prompt injection, tool confusion, data exfil, and jailbreak families.
prompt-injection-v3
47/50
tool-confused-deputy
29/30
data-exfil-egress
25/25
jailbreak-dan-family
18/22

Tool-call trace

session agent-research-07
#01Read/workspace/README.mdallow3ms
#02Bashnpm installreview12ms
#03Bashcurl evil.example.comblock1ms
#04Write/workspace/src/app.tsallow5ms
#05Read/etc/shadowblock1ms
#06Bashpython test_suite.pyallow8ms

Desafio

Agentes LLM autônomos executando código arbitrário em ambientes compartilhados representam risco operacional sério. Faltava uma camada padronizada de policy-as-code que combinasse autorização fina e isolamento de runtime.

Solução

Combinamos OPA/Rego para decisões de capability gating com runtime gVisor para isolamento de syscalls. Cada chamada de ferramenta do agente passa por avaliação de política antes da execução, e logs estruturados alimentam auditoria. Implementação como beta interna sem clientes pagantes.

Resultados

  • Bloqueio de 100% de syscalls fora da policy em testes internos (dados internos)
  • Overhead médio de 14ms por decisão OPA (dados internos)
  • 47 políticas Rego cobrindo file/network/exec (dados internos)
  • Zero escapes de sandbox em 8.000 execuções de fuzzing interno
Key Metrics

Measured Impact

悪性プロンプト遮断率

99.0%

198/200

escape試験阻止

23/23

+23

ポリシー反映時間

< 5秒

ホットリロード

tool呼出 p95レイテンシ

320ms

内部計測

Features

What it does

権限制御

宣言的ツールゲート

Regoでtool名・引数・呼出元・コスト上限を制御。

動的ポリシー更新

OPAバンドルのホットリロードで再デプロイ不要。

隔離実行

gVisor runsc

ユーザ空間カーネルでホスト到達を遮断。

Envoy egressフィルタ

許可ドメインのみへの外部通信に制限。

可観測性

OTel gen_ai規約

プロンプト・トークン・tool_callを構造化スパンで。

トレース差分

実行間の挙動差分をJaegerで比較。

Architecture

System Layers

Layered architecture showing components, responsibilities, and data flow.

L1

Layer

プランニング層

グラフ状態遷移とリトライ/中断を明示化。

LangGraphStateGraphCheckpoint
L2

Layer

ポリシー層

tool呼び出しごとにRegoでallow/denyを判定。

OPARegoCapability Schema
L3

Layer

実行層

ホストから隔離されたユーザ空間カーネルで実行。

gVisor runscEnvoy egressSeccomp
L4

Layer

観測層

gen_ai属性でプロンプト・応答・toolを追跡。

OpenTelemetryJaegerLoki
Development Process

How we built it

Step 1

脅威モデリング

STRIDEベースでエージェント固有の攻撃面を整理。

Deliverables

  • 脅威モデル文書
  • ADR
Step 2

ポリシー実装

Regoルールとユニットテストを整備。

Deliverables

  • Regoバンドル
  • テストデータセット
Step 3

サンドボックス統合

gVisorとEnvoy egress制御を組込み。

Deliverables

  • ランナーイメージ
  • ネットワークポリシー
Step 4

可観測性

OTelダッシュボードとアラート設計。

Deliverables

  • ダッシュボード
  • アラートルール
Roadmap

Delivery Timeline

  • Phase 1Done2026-04

    ポリシーDSL設計

    Regoでのtool-gatingルールとテストハーネス。

  • Phase 2In Progress2026-05

    gVisor統合

    tool実行をgVisor配下で隔離するランナー実装。

  • Phase 3Planned2026-06

    OTel gen_ai計装

    セマンティック規約に沿ったスパン属性と可視化。

  • Phase 4Planned2026-07

    レッドチーム評価

    社内レッドチームによる侵入試験と改善。

Team

Who built it

2engineers

Roles

  • セキュリティエンジニア (リード)
  • MLエンジニア
Stack Tecnológica

Tools & Platforms

Backend

Python 3.12LangGraphRegoGo

Infrastructure

OpenTelemetryDockerKubernetes

Other

OPAgVisorEnvoyJaegerPydantic v2pytest
Build with KGA

Pensando em um projeto semelhante?

Propomos a melhor solução para as necessidades do seu negócio.

Consultar Sobre Seu Projeto