守护天使伦理审查

5小时前更新 3 00

AI代理美德伦理安全

收录时间：

2026-02-26

手机查看

守护天使伦理审查

技能简介

Guardian Angel 为 AI 代理构建基于托马斯主义美德伦理的道德审查层，以仁爱（caritas）为根基，培养审慎、正义、勇毅、节制四种枢德作为稳定的行动倾向，替代单纯的规则清单检查。

业务背景

为部署AI代理的企业提供伦理安全防线，防止自动化系统执行可能带来道德风险的操作。不同于死板的规则引擎，该审查层基于美德伦理动态评估决策意图，在工具调用前实时拦截高危行为，并将模糊案例转交人工判断，平衡效率与责任归属。

落地案例：某金融机构部署AI代理处理客户账户操作。当代理尝试执行'禁用核心交易服务器'指令时，守护天使在工具调用前触发拦截：识别该操作涉及基础设施停用，自动升级至风控主管审批。主管收到加密审计日志，确认系误触发后驳回请求，避免业务中断。日常查询类操作则正常放行，不影响服务效率。

能做什么

在代理决策层评估行动的伦理适宜性
通过 before_tool_call 钩子实现工具执行前的实时拦截
对基础设施禁用类操作自动升级至人工审批流程
使用加密随机数生成审计日志，确保敏感操作可追溯
防御提示注入攻击，识别并阻断恶意输入模式

使用说明

安装指令

# 通过 OpenClaw 技能仓库安装
openclaw skill install leo3linbeck/guardian-angel

# 或手动克隆配置
git clone https://github.com/openclaw/skills.git
cd skills/leo3linbeck/guardian-angel

配置步骤

将插件注册至代理网关，设置优先级 -10000（最后执行）
配置审批工作流端点，用于模糊案例的人工确认
启用审计日志存储路径，记录所有评估决策
针对 gateway/config.apply、exec/kill 等高危操作设置强制拦截规则

输入与输出

见下方输入与输出表格。

项目	内容
输入	代理待执行动作、工具调用参数、会话上下文、委托人标识
输出	伦理评估结果（允许/拦截/升级）、拦截原因、审计日志、人工审批请求
适用人群	企业安全团队、金融医疗合规场景、美德伦理框架采用者、多租户平台运营商
不包含	行业法规条文映射、伦理推理可视化、委托人偏好学习、其他伦理框架切换

风险提示

TOCTOU 风险：评估与执行之间存在时间窗口，需确保原子性 enforcement
误拦截可能：过度保守的 virtue 评估可能阻碍正常业务流程
审批延迟：人工确认环节引入响应延迟，不适用于实时性要求极高的场景
配置错误：插件优先级设置不当可能导致防护层被绕过

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/leo3linbeck/guardian-angel/SKILL.md
来源类型：GitHub 开源仓库

数据统计

暂无评论

暂无评论...

守护天使伦理审查

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

SVG本地存储漏洞演示

智能体人格系统

HealthKit数据同步

沙箱终端管理

Hyperliquid交易工具

Google相册管理

App Store上架审计

间接提示注入防御

暂无评论

标签云