无头浏览器自动化

8小时前更新 4 00
无头浏览器自动化无头浏览器自动化
无头浏览器自动化

技能简介

agent-browser 是一款面向 AI 代理优化的无头浏览器自动化命令行工具,基于 Chromium 引擎,通过可访问性树快照与引用标记实现确定性元素选择,支持多步骤工作流、复杂单页应用(SPA)操作及会话隔离

能做什么

  • 自动化执行多步骤网页操作流程
  • 通过引用标记精确定位并交互页面元素(点击、填写、滚动等)
  • 管理多个隔离浏览器会话,模拟不同用户身份
  • 保存和加载登录状态,跳过重复认证流程
  • 拦截或模拟网络请求,控制页面加载行为
  • 生成页面截图或 PDF 文档

使用说明

安装步骤:

  1. 全局安装 CLI 工具:npm install -g agent-browser
  2. 下载 Chromium 内核:agent-browser install
  3. Linux 系统需额外安装依赖:agent-browser install --with-deps

基础使用流程:

  1. 打开目标页面:agent-browser open https://example.com
  2. 获取交互元素快照:agent-browser snapshot -i --json(-i 表示仅交互元素,–json 输出 JSON 格式)
  3. 根据返回的引用标记执行操作,如 agent-browser click @e2agent-browser fill @e3 "文本内容"
  4. 页面变化后重新快照以更新引用标记

常用命令示例:

  • 等待页面稳定:agent-browser wait --load networkidle
  • 保存登录态:agent-browser state save auth.json
  • 切换会话:agent-browser --session admin open site.com
  • 查看网络请求:agent-browser network requests --filter api

输入与输出

见下方输入与输出表格。

项目内容
输入目标网址、引用标记(@eN)、CSS 选择器、填充文本、等待条件、会话 ID、状态文件路径
输出JSON 格式快照(含可访问性树与引用映射)、元素文本/属性/状态值、截图/PDF 文件、网络日志、Cookie 数据
适用人群AI 代理开发者、自动化测试工程师、数据采集工程师、需要多会话隔离的技术团队
不包含可视化截图分析、浏览器扩展支持、OCR 内容识别、内置代理决策逻辑

 

风险提示

  • 部分网站对自动化访问有反爬机制,频繁操作可能导致 IP 被封禁
  • 快照深度过大可能影响性能,建议配合 -d 参数限制层级
  • 会话状态文件包含敏感 Cookie 信息,需妥善保管存储路径
  • headed 模式仅建议调试时使用,生产环境应使用无头模式

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/matrixy/agent-browser-clawdbot/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...