Cal.com日程自动化
通过Rube MCP
agent-browser 是一款面向 AI 代理优化的无头浏览器自动化命令行工具,基于 Chromium 引擎,通过可访问性树快照与引用标记实现确定性元素选择,支持多步骤工作流、复杂单页应用(SPA)操作及会话隔离。
Agent Browser 帮助业务人员将重复性网页操作自动化,如批量数据采集、表单填报和页面巡检。AI代理可直接调用结构化命令完成点击、输入、截图等任务,无需人工值守浏览器。适用于需要定时抓取竞品信息、自动化测试Web流程,或让AI助手代为处理繁琐的网页交互场景。
落地案例:财务团队每月需从多个网银下载流水:传统方式需专人逐户登录、切换U盾、手动导出。使用agent-browser后,AI代理按预设流程自动完成——调用快照识别登录框与验证码区域,填充账号密码并触发安全验证,进入账户后定位"下载对账单"按钮,选择日期范围导出Excel。各银行账户以独立会话并行运行,全程无需人工值守,月末结账周期从2天缩短至2小时。
安装步骤:
npm install -g agent-browseragent-browser installagent-browser install --with-deps核心工作流程:
agent-browser open <url>agent-browser snapshot -i(返回带引用的元素如 @e1, @e2)agent-browser click @e1 或 agent-browser fill @e2 "文本"常用命令示例:
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 目标网页URL、CSS选择器、元素引用(@e格式)、输入文本、按键名称、等待条件、文件路径 |
| 输出 | 页面可访问性树、交互元素列表(含@引用)、元素文本/HTML/属性值、页面标题/URL、元素状态、截图/PDF/视频文件 |
| 适用人群 | 需要自动化网页操作的开发者、Web UI测试工程师、构建AI代理的开发者、数据抓取需求者 |
| 不包含 | 图形界面操作、非浏览器环境自动化、验证码绕过功能、多浏览器并行会话管理 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/thesethrose/agent-browser/SKILL.md
来源类型:GitHub 开源项目