浏览器自动化工具

3小时前更新 4 00
浏览器自动化工具浏览器自动化工具
浏览器自动化工具

技能简介

agent-browser 是一款面向 AI 代理优化的无头浏览器自动化命令行工具,基于 Chromium 引擎,通过可访问性树快照与引用标记实现确定性元素选择,支持多步骤工作流、复杂单页应用(SPA)操作及会话隔离。

业务背景

Agent Browser 帮助业务人员将重复性网页操作自动化,如批量数据采集、表单填报和页面巡检。AI代理可直接调用结构化命令完成点击、输入、截图等任务,无需人工值守浏览器。适用于需要定时抓取竞品信息、自动化测试Web流程,或让AI助手代为处理繁琐的网页交互场景。

落地案例:财务团队每月需从多个网银下载流水:传统方式需专人逐户登录、切换U盾、手动导出。使用agent-browser后,AI代理按预设流程自动完成——调用快照识别登录框与验证码区域,填充账号密码并触发安全验证,进入账户后定位"下载对账单"按钮,选择日期范围导出Excel。各银行账户以独立会话并行运行,全程无需人工值守,月末结账周期从2天缩短至2小时。

能做什么

  • 自动执行网页交互操作(点击、填写、滚动等)
  • 提取页面中的结构化数据
  • 程序化填写网页表单
  • 进行 Web UI 自动化测试
  • 录制操作视频并生成 PDF/截图

使用说明

安装步骤:

  1. 通过 npm 全局安装:npm install -g agent-browser
  2. 执行安装命令:agent-browser install
  3. 如需完整依赖:agent-browser install --with-deps

核心工作流程:

  1. 打开页面:agent-browser open <url>
  2. 获取交互元素快照:agent-browser snapshot -i(返回带引用的元素如 @e1, @e2)
  3. 使用引用执行交互:agent-browser click @e1agent-browser fill @e2 "文本"
  4. 导航或 DOM 变化后重新快照

常用命令示例:

  • 导航:open / back / forward / reload / close
  • 快照:snapshot [-i 交互元素] [-c 紧凑输出] [-d 深度限制] [-s CSS选择器]
  • 交互:click / dblclick / fill / type / press / hover / check / select / scroll / drag / upload
  • 信息获取:get text/html/value/attr/title/url/count/box
  • 状态检查:is visible / is enabled / is checked
  • 媒体:screenshot [–full] / pdf / record start/stop/restart
  • 等待:wait [元素/毫秒/–text/–url/–load/–fn]

输入与输出

见下方输入与输出表格。

项目内容
输入目标网页URL、CSS选择器、元素引用(@e格式)、输入文本、按键名称、等待条件、文件路径
输出页面可访问性树、交互元素列表(含@引用)、元素文本/HTML/属性值、页面标题/URL、元素状态、截图/PDF/视频文件
适用人群需要自动化网页操作的开发者、Web UI测试工程师、构建AI代理的开发者、数据抓取需求者
不包含图形界面操作、非浏览器环境自动化、验证码绕过功能、多浏览器并行会话管理

 

风险提示

  • 需要本地安装 Node.js 和 npm 环境
  • 部分网站可能检测自动化工具并限制访问
  • 频繁操作可能导致 IP 被临时封禁
  • 录制视频功能会创建新上下文,但保留 cookies 和存储
  • 语义定位器功能文档不完整,建议优先使用引用方式

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/thesethrose/agent-browser/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...