预设配置测试

1小时前更新 2 00

帽子集合预设验证工具

收录时间：

2026-02-25

手机查看

网页与前端开发 # CLI脚本 # 会话记录

预设配置测试

技能简介

通过Shell脚本系统测试Ralph帽子集合预设，支持单预设评估与全量批量测试，输出结构化指标与日志。

业务背景

帽子集合预设验证工具面向前端开发团队，解决Ralph预设配置上线前的质量管控痛点。通过自动化测试替代人工逐条验证，确保配置变更后功能正确性；批量审计预设库发现潜在UX问题；监控帽子路由性能是否符合Fresh Context设计原则，防止上下文污染导致的体验劣化。

落地案例：某迭代中开发者修改了客服场景的帽子触发规则，需验证新配置是否准确识别用户意图。使用本工具指定该预设名称执行单条测试，脚本自动模拟多轮对话并输出metrics.json——若迭代次数异常增高或同迭代内出现多帽子切换，则提示违反Tenet #1需回滚优化。全量回归时启用后台模式，数小时后通过SUMMARY.md查看整体质量水位。

能做什么

验证预设配置变更后的正确性
审计预设库的质量与UX问题
检测帽子路由性能（上下文切换是否符合Tenet #1）
生成包含迭代次数、激活帽子、事件数的量化报告

使用说明

安装准备

需具备Bash环境，可选安装yq以解析YAML测试任务。将脚本置于./tools/目录，确保执行权限。

单预设评估

./tools/evaluate-preset.sh tdd-red-green claude

全量评估

./tools/evaluate-all-presets.sh claude

Bash工具调用参数

timeout: 600000（10分钟上限）
run_in_background: true（必须后台运行）

启动后使用TaskOutput工具轮询进度，避免阻塞等待。

输入与输出

见下方输入与输出表格。

项目	内容
输入	预设名称（如tdd-red-green）、后端类型（claude/kiro）、超时毫秒数、后台运行标志
输出	结构化日志目录（.eval/logs/）、metrics.json指标文件、SUMMARY.md汇总报告、shell退出码
适用人群	预设开发者、QA工程师、帽子路由调优人员、CI/CD集成场景
不包含	图形化报告界面、实时进度推送、Windows原生支持、预设编辑功能

风险提示

全量测试可能持续数小时，务必后台运行并轮询状态
退出码124表示超时，需检查output.log排查挂起原因
同迭代内多帽子切换违反Fresh Context原则，会导致上下文污染
未安装yq时无法自动加载preset-test-tasks.yml中的测试任务

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/paulpete/evaluate-presets/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

预设配置测试

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

UX决策框架

网页性能审计

shadcn/ui组件开发

AI SDK集成You.com工具

Nginx配置生成器

前端开发助手

友好问候技能

Claude前端构件生成器

暂无评论

标签云