守护天使伦理审查

5小时前更新 3 00

AI代理美德伦理安全

收录时间:
2026-02-26
守护天使伦理审查守护天使伦理审查
守护天使伦理审查

技能简介

Guardian Angel 为 AI 代理构建基于托马斯主义美德伦理的道德审查层,以仁爱(caritas)为根基,培养审慎、正义、勇毅、节制四种枢德作为稳定的行动倾向,替代单纯的规则清单检查。

业务背景

为部署AI代理的企业提供伦理安全防线,防止自动化系统执行可能带来道德风险的操作。不同于死板的规则引擎,该审查层基于美德伦理动态评估决策意图,在工具调用前实时拦截高危行为,并将模糊案例转交人工判断,平衡效率与责任归属。

落地案例:某金融机构部署AI代理处理客户账户操作。当代理尝试执行'禁用核心交易服务器'指令时,守护天使在工具调用前触发拦截:识别该操作涉及基础设施停用,自动升级至风控主管审批。主管收到加密审计日志,确认系误触发后驳回请求,避免业务中断。日常查询类操作则正常放行,不影响服务效率。

能做什么

  • 在代理决策层评估行动的伦理适宜性
  • 通过 before_tool_call 钩子实现工具执行前的实时拦截
  • 对基础设施禁用类操作自动升级至人工审批流程
  • 使用加密随机数生成审计日志,确保敏感操作可追溯
  • 防御提示注入攻击,识别并阻断恶意输入模式

使用说明

安装指令

# 通过 OpenClaw 技能仓库安装
openclaw skill install leo3linbeck/guardian-angel

# 或手动克隆配置
git clone https://github.com/openclaw/skills.git
cd skills/leo3linbeck/guardian-angel

配置步骤

  1. 将插件注册至代理网关,设置优先级 -10000(最后执行)
  2. 配置审批工作流端点,用于模糊案例的人工确认
  3. 启用审计日志存储路径,记录所有评估决策
  4. 针对 gateway/config.apply、exec/kill 等高危操作设置强制拦截规则

输入与输出

见下方输入与输出表格。

项目内容
输入代理待执行动作、工具调用参数、会话上下文、委托人标识
输出伦理评估结果(允许/拦截/升级)、拦截原因、审计日志、人工审批请求
适用人群企业安全团队、金融医疗合规场景、美德伦理框架采用者、多租户平台运营商
不包含行业法规条文映射、伦理推理可视化、委托人偏好学习、其他伦理框架切换

 

风险提示

  • TOCTOU 风险:评估与执行之间存在时间窗口,需确保原子性 enforcement
  • 误拦截可能:过度保守的 virtue 评估可能阻碍正常业务流程
  • 审批延迟:人工确认环节引入响应延迟,不适用于实时性要求极高的场景
  • 配置错误:插件优先级设置不当可能导致防护层被绕过

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/leo3linbeck/guardian-angel/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...