浏览器阶梯爬取

2小时前更新 4 00
浏览器阶梯爬取浏览器阶梯爬取
浏览器阶梯爬取

技能简介

browser-ladder 提供四层渐进式网页抓取方案,从免费静态请求起步,按需升级至本地容器、云端免费服务或付费反检测方案,帮助控制数据采集成本。

能做什么

  • 根据页面复杂度自动选择最优抓取层级
  • 处理静态HTML、JavaScript渲染页面、CAPTCHA及反爬虫场景
  • 通过环境变量灵活切换云端服务提供商
  • 批量请求与会话复用以降低资源消耗

使用说明

安装步骤:

  1. 确保系统已安装 Node.js 与 Docker
  2. 执行安装脚本:./skills/browser-ladder/scripts/setup.sh
  3. 如需使用云端服务,在 .env 文件中配置可选密钥:
    BROWSERCAT_API_KEY=your-key(BrowserCat 免费层)
    BROWSERLESS_TOKEN=your-token(Browserless.io 付费层)

使用层级:

  • L1 web_fetch:静态页面与API,零依赖
  • L2 Playwright Docker:JS渲染与截图,需Docker
  • L3 BrowserCat:云端浏览器备用,需API密钥
  • L4 Browserless.io:CAPTCHA与反检测绕过,需付费令牌

输入与输出

见下方输入与输出表格。

项目内容
输入目标URL;抓取层级(1-4,可选);BrowserCat API密钥(L3);Browserless令牌(L4)
输出页面HTML内容;PNG/JPG截图(L2及以上);连接会话日志;失败错误信息
适用人群数据采集开发者、成本敏感型技术团队、需处理反爬虫的运维工程师
不包含代理IP轮换服务、人工验证码识别、持久化数据库集成

 

风险提示

  • 云端服务受限于供应商可用性与速率限制
  • 付费层级产生持续订阅费用
  • 反检测功能可能违反目标网站服务条款
  • Docker 运行需充足本地计算资源

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/ktpriyatham/browser-ladder/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...