OpenSafe — Sandbox Agent OSS với Cổng Năng Lực
OpenSafe — OSS Agent Evaluation Sandbox
R&D nội bộ cho sandbox agent mã nguồn mở với cổng năng lực và cô lập.
Demo trực tiếp
Xem trước giao diện ứng dụng thực tế
Agent
agent-research-07
Attempted action
Bash("curl evil.example.com")
Rule
egress.domain.allowlist
Rego policy evaluation
last 5 min · internal benchmarktool.bash.network.deny42 hitshightool.write.path.allowlist184 hitslowtool.read.secrets.block7 hitshightool.exec.sudo.deny0 hitscriticalegress.domain.allowlist3 hitsmediumRed-team scenarios
社内検証 · nightlyTool-call trace
session agent-research-07/workspace/README.mdallow3msnpm installreview12mscurl evil.example.comblock1ms/workspace/src/app.tsallow5ms/etc/shadowblock1mspython test_suite.pyallow8msThách thức
Chạy các LLM agent mã nguồn mở một cách an toàn trong khi giới hạn năng lực công cụ (mạng, file, shell) mà không hy sinh khả năng dùng cho nhà phát triển.
Giải pháp
Sandbox dựa trên container với cổng năng lực khai báo, log audit công cụ và chính sách có thể cấu hình theo từng lần chạy — được xác thực trong thí điểm nội bộ.
Kết quả
- 12 năng lực công cụ được gate denied-by-default trong kiểm thử nội bộ
- Benchmark nội bộ: 0 sandbox escape trong 1k lần chạy agent fuzz
- Beta nội bộ với 4 nhà nghiên cứu — phản hồi tích cực về cô lập
- Chỉ R&D nội bộ — không triển khai khách hàng trả phí
Measured Impact
悪性プロンプト遮断率
99.0%
198/200
escape試験阻止
23/23
+23
ポリシー反映時間
< 5秒
ホットリロード
tool呼出 p95レイテンシ
320ms
内部計測
What it does
権限制御
宣言的ツールゲート
Regoでtool名・引数・呼出元・コスト上限を制御。
動的ポリシー更新
OPAバンドルのホットリロードで再デプロイ不要。
隔離実行
gVisor runsc
ユーザ空間カーネルでホスト到達を遮断。
Envoy egressフィルタ
許可ドメインのみへの外部通信に制限。
可観測性
OTel gen_ai規約
プロンプト・トークン・tool_callを構造化スパンで。
トレース差分
実行間の挙動差分をJaegerで比較。
System Layers
Layered architecture showing components, responsibilities, and data flow.
Layer
プランニング層
グラフ状態遷移とリトライ/中断を明示化。
Layer
ポリシー層
tool呼び出しごとにRegoでallow/denyを判定。
Layer
実行層
ホストから隔離されたユーザ空間カーネルで実行。
Layer
観測層
gen_ai属性でプロンプト・応答・toolを追跡。
How we built it
脅威モデリング
STRIDEベースでエージェント固有の攻撃面を整理。
Deliverables
- 脅威モデル文書
- ADR
ポリシー実装
Regoルールとユニットテストを整備。
Deliverables
- Regoバンドル
- テストデータセット
サンドボックス統合
gVisorとEnvoy egress制御を組込み。
Deliverables
- ランナーイメージ
- ネットワークポリシー
可観測性
OTelダッシュボードとアラート設計。
Deliverables
- ダッシュボード
- アラートルール
Delivery Timeline
- Phase 1Done2026-04
ポリシーDSL設計
Regoでのtool-gatingルールとテストハーネス。
- Phase 2In Progress2026-05
gVisor統合
tool実行をgVisor配下で隔離するランナー実装。
- Phase 3Planned2026-06
OTel gen_ai計装
セマンティック規約に沿ったスパン属性と可視化。
- Phase 4Planned2026-07
レッドチーム評価
社内レッドチームによる侵入試験と改善。
Who built it
Roles
- セキュリティエンジニア (リード)
- MLエンジニア
Tools & Platforms
Backend
Infrastructure
Other
Bạn quan tâm đến dự án tương tự?
Chúng tôi sẽ đề xuất giải pháp tốt nhất cho doanh nghiệp của bạn.
Trao đổi về dự án