预设配置测试

1小时前更新 2 00

帽子集合预设验证工具

收录时间:
2026-02-25
预设配置测试预设配置测试
预设配置测试

技能简介

通过Shell脚本系统测试Ralph帽子集合预设,支持单预设评估与全量批量测试,输出结构化指标与日志。

业务背景

帽子集合预设验证工具面向前端开发团队,解决Ralph预设配置上线前的质量管控痛点。通过自动化测试替代人工逐条验证,确保配置变更后功能正确性;批量审计预设库发现潜在UX问题;监控帽子路由性能是否符合Fresh Context设计原则,防止上下文污染导致的体验劣化。

落地案例:某迭代中开发者修改了客服场景的帽子触发规则,需验证新配置是否准确识别用户意图。使用本工具指定该预设名称执行单条测试,脚本自动模拟多轮对话并输出metrics.json——若迭代次数异常增高或同迭代内出现多帽子切换,则提示违反Tenet #1需回滚优化。全量回归时启用后台模式,数小时后通过SUMMARY.md查看整体质量水位。

能做什么

  • 验证预设配置变更后的正确性
  • 审计预设库的质量与UX问题
  • 检测帽子路由性能(上下文切换是否符合Tenet #1)
  • 生成包含迭代次数、激活帽子、事件数的量化报告

使用说明

安装准备

需具备Bash环境,可选安装yq以解析YAML测试任务。将脚本置于./tools/目录,确保执行权限。

单预设评估

./tools/evaluate-preset.sh tdd-red-green claude

全量评估

./tools/evaluate-all-presets.sh claude

Bash工具调用参数

  • timeout: 600000(10分钟上限)
  • run_in_background: true(必须后台运行)

启动后使用TaskOutput工具轮询进度,避免阻塞等待。

输入与输出

见下方输入与输出表格。

项目内容
输入预设名称(如tdd-red-green)、后端类型(claude/kiro)、超时毫秒数、后台运行标志
输出结构化日志目录(.eval/logs/)、metrics.json指标文件、SUMMARY.md汇总报告、shell退出码
适用人群预设开发者、QA工程师、帽子路由调优人员、CI/CD集成场景
不包含图形化报告界面、实时进度推送、Windows原生支持、预设编辑功能

 

风险提示

  • 全量测试可能持续数小时,务必后台运行并轮询状态
  • 退出码124表示超时,需检查output.log排查挂起原因
  • 同迭代内多帽子切换违反Fresh Context原则,会导致上下文污染
  • 未安装yq时无法自动加载preset-test-tasks.yml中的测试任务

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/paulpete/evaluate-presets/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...