反爬虫浏览器自动化

3小时前更新 2 00
反爬虫浏览器自动化反爬虫浏览器自动化
反爬虫浏览器自动化

技能简介

该技能提供反爬虫浏览器自动化方案,使用Camoufox和curl_cffi两种工具绕过Cloudflare Turnstile、Datadome等反爬机制,适用于Airbnb、Yelp等高防护站点的数据采集。

能做什么

  • 绕过标准Playwright/Selenium被拦截的场景
  • 自动通过Cloudflare人机验证页面
  • 采集Airbnb、Yelp等受保护站点数据
  • 支持浏览器渲染和纯API两种采集模式

使用说明

安装步骤:

  1. 进入pybox隔离环境:distrobox-enter pybox
  2. 安装依赖(必须使用python3.14):python3.14 -m pip install camoufox curl_cffi
  3. Camoufox浏览器首次运行时自动下载(约700MB Firefox定制版)

运行命令:

  • 浏览器模式:distrobox-enter pybox -- python3.14 scripts/camoufox-fetch.py "https://example.com" --headless
  • API模式:distrobox-enter pybox -- python3.14 scripts/curl-api.py "https://api.example.com/endpoint"

关键要求:必须使用住宅或移动代理,数据中心IP会被立即封禁。

输入与输出

见下方输入与输出表格。

项目内容
输入目标URL、代理配置(http/socks5)、运行模式选择(browser/api)、headless参数
输出网页渲染后的HTML、API接口返回数据、页面截图(可选配置)
适用人群数据工程师、爬虫开发者、需要突破反爬机制的技术人员
不包含代理IP服务(需自备住宅代理)、可视化操作界面、多账号管理功能

 

风险提示

  • 数据中心IP在Airbnb/Yelp上会被即时封禁,必须配置住宅代理
  • 需模拟真实用户行为:先访问首页、随机滚动、添加鼠标轨迹、设置2-5秒随机延迟
  • 旧版–headless参数已被检测,建议使用headless=”new”或Xvfb虚拟显示
  • 同一代理IP建议保持10-30分钟会话,避免频繁轮换

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/kesslerio/kesslerio-stealth-browser/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...