验证码自动识别
调用2Captcha
proxy-scrap 是一款高性能代理采集工具,能够自动从多个公开来源抓取代理服务器地址,并对采集到的代理进行实时可用性验证,筛选出有效的高匿名代理节点。
企业在数据采集、爬虫开发或跨境业务中常面临代理IP失效快、质量参差不齐的问题。本工具自动聚合多源公开代理并完成实时可用性验证,帮助技术团队快速获取高匿名代理资源,降低人工筛选成本,提升下游业务的网络连通稳定性。
落地案例:某电商数据分析团队需定期抓取海外竞品价格,但自有代理池频繁被封禁。通过配置proxy-scrap扫描三个公开代理站点,设置HTTP代理响应超时5秒、匿名等级为高匿,每日定时执行采集任务后导出JSON格式有效代理列表,直接接入现有爬虫调度系统,实现代理资源的自动化补充与更新。
pip install -r requirements.txt 或对应包管理命令python proxy_scrap.py --sources all --validate见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 代理源配置(公开代理站点/API接口)、验证参数(超时阈值、匿名等级)、输出格式选项 |
| 输出 | 经可用性验证的代理列表(含协议类型、匿名等级、响应延迟),以及验证失败的错误日志 |
| 适用人群 | 网络爬虫开发者、数据采集工程师、安全测试人员、需要临时匿名代理的技术用户 |
| 不包含 | 商业代理租赁服务、长期稳定的代理节点保障、VPN加密隧道、流量转发加速功能 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/danman60/proxy-scrap/SKILL.md
来源类型:GitHub 开源仓库