OpenSafe — 开源代理验证沙箱
OpenSafe — OSS Agent Evaluation Sandbox
在隔离环境中评估开源 LLM 代理安全性与可靠性的研发原型,自动测量工具调用、试错行为与提示注入抗性。
在线演示
实际应用界面预览
Agent
agent-research-07
Attempted action
Bash("curl evil.example.com")
Rule
egress.domain.allowlist
Rego policy evaluation
last 5 min · internal benchmarktool.bash.network.deny42 hitshightool.write.path.allowlist184 hitslowtool.read.secrets.block7 hitshightool.exec.sudo.deny0 hitscriticalegress.domain.allowlist3 hitsmediumRed-team scenarios
社内検証 · nightlyTool-call trace
session agent-research-07/workspace/README.mdallow3msnpm installreview12mscurl evil.example.comblock1ms/workspace/src/app.tsallow5ms/etc/shadowblock1mspython test_suite.pyallow8ms挑战
随着开源代理增多,缺乏可复现的标准沙箱来评估任意命令执行、越狱与资源失控风险。
解决方案
组合 Firecracker microVM 与 gVisor 构建可拦截工具调用的隔离层,集成对抗性提示语料库与策略违规检测器,自动生成评估报告。
成果
- 试点中量化对比了 5 种开源代理对注入攻击的抗性差异
- 内部验证数据下危险工具调用拦截率达 96%
- 沙箱单会话平均启动时间缩短至 1.8 秒
- 评估报告已集成至公司内部安全审查流程
Measured Impact
悪性プロンプト遮断率
99.0%
198/200
escape試験阻止
23/23
+23
ポリシー反映時間
< 5秒
ホットリロード
tool呼出 p95レイテンシ
320ms
内部計測
What it does
権限制御
宣言的ツールゲート
Regoでtool名・引数・呼出元・コスト上限を制御。
動的ポリシー更新
OPAバンドルのホットリロードで再デプロイ不要。
隔離実行
gVisor runsc
ユーザ空間カーネルでホスト到達を遮断。
Envoy egressフィルタ
許可ドメインのみへの外部通信に制限。
可観測性
OTel gen_ai規約
プロンプト・トークン・tool_callを構造化スパンで。
トレース差分
実行間の挙動差分をJaegerで比較。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
プランニング層
グラフ状態遷移とリトライ/中断を明示化。
Layer
ポリシー層
tool呼び出しごとにRegoでallow/denyを判定。
Layer
実行層
ホストから隔離されたユーザ空間カーネルで実行。
Layer
観測層
gen_ai属性でプロンプト・応答・toolを追跡。
How we built it
脅威モデリング
STRIDEベースでエージェント固有の攻撃面を整理。
Deliverables
- 脅威モデル文書
- ADR
ポリシー実装
Regoルールとユニットテストを整備。
Deliverables
- Regoバンドル
- テストデータセット
サンドボックス統合
gVisorとEnvoy egress制御を組込み。
Deliverables
- ランナーイメージ
- ネットワークポリシー
可観測性
OTelダッシュボードとアラート設計。
Deliverables
- ダッシュボード
- アラートルール
Delivery Timeline
- Phase 1Done2026-04
ポリシーDSL設計
Regoでのtool-gatingルールとテストハーネス。
- Phase 2In Progress2026-05
gVisor統合
tool実行をgVisor配下で隔離するランナー実装。
- Phase 3Planned2026-06
OTel gen_ai計装
セマンティック規約に沿ったスパン属性と可視化。
- Phase 4Planned2026-07
レッドチーム評価
社内レッドチームによる侵入試験と改善。
Who built it
Roles
- セキュリティエンジニア (リード)
- MLエンジニア
Tools & Platforms
Backend
Infrastructure
Other