深度网页抓取工具

1小时前更新 1 00

穿透复杂网站防护的容

收录时间：

2026-02-26

手机查看

深度网页抓取工具

技能简介

deep-scraper 是一款面向复杂网站的深度网页抓取工程工具，基于 Docker + Crawlee (Playwright) 容器化环境运行，可穿透 YouTube、X/Twitter 等平台的防护机制，获取原始级数据内容。

业务背景

深度网页抓取工具专为突破主流平台的内容壁垒而设计，帮助业务人员稳定获取YouTube视频字幕、X/Twitter公开帖文等原始数据。通过容器化部署与智能防护穿透能力，自动过滤广告干扰并验证数据完整性，为内容分析、舆情监测、竞品研究等场景提供纯净可靠的数据源，降低人工采集成本与技术门槛。

落地案例：市场团队需要批量分析竞品的YouTube视频策略时，只需提交目标视频URL，工具即可穿透平台防护提取完整字幕与描述信息，自动校验视频ID避免缓存错乱，输出结构化文本供进一步分析。同样适用于追踪品牌在社交平台的公开声量，快速沉淀可解读的内容资产，支撑决策效率。

能做什么

抓取 YouTube 视频字幕与描述信息
提取 X/Twitter 等平台公开内容
自动过滤广告与干扰信息，输出纯净数据
验证视频 ID 防止缓存污染

使用说明

前置要求：主机已安装并运行 Docker。

安装步骤：

将 skills/deep-scraper 目录复制到项目的 skills/ 文件夹
构建 Docker 镜像：
docker build -t clawd-crawlee skills/deep-scraper/

运行命令：

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [目标URL]

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标网页 URL（支持 YouTube、X/Twitter 等复杂站点）
输出	JSON 格式结果，含状态码、内容类型、视频ID、核心数据字段
适用人群	有 Docker 基础的技术人员、数据研究员、内容分析开发者
不包含	密码保护内容、登录态私密信息、非网页数据源接入

风险提示

禁止抓取密码保护或非公开的个人信息
需遵守目标网站的 robots.txt 及服务条款
高频请求可能导致 IP 被封禁
YouTube 等平台结构变更可能影响抓取稳定性

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/opsun/deep-scraper/SKILL.md
来源类型：GitHub 开源仓库

数据统计

暂无评论

暂无评论...

深度网页抓取工具

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

韩国气象数据查询

Twitter隐形自动化

自动更新助手

n8n工作流中枢

浏览器自动化控制

浏览器自动化CLI

正则表达式速查

极速浏览器自动化

暂无评论

标签云