智能体安全监控
监控AI操作行为的安
Sandwrap 为不可信技能提供基于提示词的软沙箱保护,通过五层防御机制拦截约85%的攻击尝试。该技能并非系统级虚拟机隔离,而是在技能外层构建动态安全屏障,适用于运行来源不明的第三方技能、处理可疑内容或测试新技能等场景。
技能沙箱防护为企业安全运行来源不明的第三方技能提供动态保护。通过五层防御机制自动拦截提示词注入、角色扮演绕过等常见攻击,约85%的攻击尝试可被阻断。适用于测试新技能、处理可疑内容或接入外部开发者贡献的技能场景,在不牺牲业务灵活性的前提下降低安全风险。
落地案例:某团队需快速上线社区开发者贡献的数据分析技能,但无法完全信任代码安全性。启用技能沙箱后,配置"仅网络"策略限制该技能只能访问指定API,同时开启审计隔离记录所有操作。当技能试图读取本地敏感文件时,系统自动触发人工确认;若检测到编码载荷攻击,则直接拦截并告警。团队既获得了业务效率,又将潜在威胁控制在可控范围内。
安装指令:该技能无需额外安装依赖,直接通过调用接口使用。
手动模式:
Run [技能名称] in sandwrap [预设名称]
自动模式配置:创建 sandbox-config.json 文件:
{
"always_sandbox": ["audit-website", "untrusted-skill"],
"auto_sandbox_risky": true,
"risk_threshold": 6,
"default_preset": "read-only"
}
预设选择建议:分析代码文档用 read-only;网络调研用 web-only;安全审计用 audit;最高安全需求用 full-isolate。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 目标技能名称、防护预设(read-only/web-only/audit/full-isolate)、待处理的不可信内容或文件、可选配置对象 |
| 输出 | 受控环境下的技能执行结果、安全拦截日志、人工确认请求、风险扫描报告 |
| 适用人群 | 运行第三方技能的开发者、安全分析师、风险评估团队、运维人员 |
| 不包含 | 系统级虚拟机隔离、100%确定性防护、恶意软件清除、凭证安全存储 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/rubenaquispe/sandwrap/SKILL.md
来源类型:GitHub 开源仓库