智能体检核

4小时前更新 1 00

AI行为自检工具

收录时间:
2026-02-26
智能体检核智能体检核
智能体检核

技能简介

Pre-Flight Checks 是一套面向 AI 代理的行为验证框架,通过测试驱动的方式检测”静默退化”——即代理加载了记忆却未正确应用已学习行为的问题。

能做什么

  • 在每次会话启动时自动验证代理行为一致性
  • 捕获记忆加载后行为未同步的隐蔽问题
  • 建立可复用的行为检查清单与标准答案库
  • 支持持续集成场景下的自动化回归测试

使用说明

安装步骤:

  1. 进入技能目录:cd ~/.openclaw/workspace/skills
  2. 克隆仓库:git clone https://github.com/IvanMMM/preflight-checks.git
  3. 初始化工作空间:cd ~/.openclaw/workspace && ./skills/preflight-checks/scripts/init.sh
  4. 编辑检查文件:vim PRE-FLIGHT-CHECKS.mdvim PRE-FLIGHT-ANSWERS.md
  5. 修改 AGENTS.md,在记忆加载后添加检查步骤

添加新检查:./skills/preflight-checks/scripts/add-check.sh(交互式向导)

运行检查:代理读取 PRE-FLIGHT-CHECKS.md → 回答各场景 → 对比 PRE-FLIGHT-ANSWERS.md → 报告得分

输入与输出

见下方输入与输出表格。

项目内容
输入PRE-FLIGHT-CHECKS.md 场景文件、PRE-FLIGHT-ANSWERS.md 标准答案、代理当前记忆状态
输出行为一致性评分(通过/失败)、退化项详细报告、可集成的 AGENTS.md 配置片段
适用人群构建持久记忆 AI 代理的开发者、需要跨会话行为一致性的运维团队、关注代理漂移问题的测试人员
不包含全自动 CI/CD 集成(待开发)、性能压力测试、代码级单元测试框架

 

风险提示

  • 需手动维护检查清单与答案文件,存在遗漏风险
  • 自动化运行脚本尚未完成,当前依赖代理自主执行
  • 检查覆盖度取决于用户编写的场景质量
  • 无法检测未纳入检查清单的新增行为偏差

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/ivanmmm/preflight-checks/SKILL.md
来源类型:GitHub 开源技能

数据统计

相关导航

暂无评论

none
暂无评论...