技能简介
Camoufox Stealth 提供 C++ 级别的反爬虫浏览器自动化能力,基于定制 Firefox 内核编译隐身补丁,非 JavaScript 层面的临时修补。
业务背景
针对高防护网站的数据采集难题,提供底层级隐身浏览器方案。通过C++内核级补丁而非表层脚本伪装,有效穿透Cloudflare、Datadome等主流反爬系统,稳定获取Airbnb、Yelp等平台公开数据,支持容器隔离运行保障环境安全。
落地案例:市场情报团队需监测竞品在Airbnb的实时定价策略。配置住宅代理后启动pybox容器,调用Camoufox Stealth以浏览器模式访问目标页面,自动绕过人机验证获取完整房源信息;高频场景可切换curl_cffi纯API模式提升吞吐,输出结构化数据供分析系统对接。
能做什么
- 访问被 Cloudflare 或 Datadome 保护的网页
- 抓取 Airbnb、Yelp 等高防护站点数据
- 在隔离容器中运行,避免污染主机环境
- 配合 curl_cffi 实现纯 API 高速请求
使用说明
安装准备
- 确保已安装 distrobox
- 进入 pybox 容器并安装依赖:
distrobox-enter pybox -- python3.14 -m pip install camoufox curl_cffi - 首次运行时自动下载 Camoufox 浏览器(约 700MB)
执行抓取
浏览器模式:distrobox-enter pybox -- python3.14 scripts/camoufox-fetch.py "https://example.com" --headless
API 模式(无浏览器开销):distrobox-enter pybox -- python3.14 scripts/curl-api.py "https://api.example.com/endpoint"
关键配置
- 必须使用住宅或移动代理,数据中心 IP 会被即时封禁
- 建议预热访问:先浏览首页、滚动页面再进入目标
- 保持会话粘性:同一代理 IP 使用 10-30 分钟
输入与输出
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 目标网址、住宅/移动代理地址、运行模式选择(camoufox/curl_cffi)、pybox 容器环境 |
| 输出 | 网页渲染后的 HTML、API 接口返回数据、可选页面截图 |
| 适用人群 | 有 Python 基础的数据工程师、需突破反爬虫限制的金融信息采集人员 |
| 不包含 | 代理服务商推荐、大规模分布式部署方案、自动化数据解析模板 |
风险提示
- 违反网站服务条款可能导致账号或 IP 被封禁
- 数据抓取需遵守当地数据保护法规
- 住宅代理成本较高,需评估投入产出
- 行为分析检测持续升级,技术可能失效
来源信息
原始链接:https://github.com/openclaw/skills/tree/main/skills/kesslerio/camoufox-stealth/SKILL.md
来源类型:开源技能仓库
常见问题
Q1:反爬虫浏览器自动化 适合哪些场景?
A:适合需要「Camoufox Stealth 提供 C++ 级别的反爬虫浏览器自动化」的场景,尤其是希望快速验证并落地的团队与个人。
Q2:第一次使用应该先做什么?
A:先明确目标任务,再按照页面中的“能做什么”和“使用说明”完成最小可行流程。
Q3:如何判断是否值得长期使用?
A:建议连续使用 1-2 周,对比效率、稳定性和协作成本,再决定是否纳入长期工具栈。
