Deep数据抓取

2周前更新 13 00

穿透复杂网站防护的容

收录时间：

2026-02-26

下载原始 SKILL.md

保存原始技能文件，便于离线查看、转存和审查。

下载原始 SKILL.md

Deep数据抓取

技能简介

deep-scraper 是一款面向复杂网站的深度网页抓取工程工具，基于 Docker + Crawlee (Playwright) 容器化环境运行，可穿透 YouTube、X/Twitter 等平台的防护机制，获取原始级数据内容。

业务背景

深度网页抓取工具专为突破主流平台的内容壁垒而设计，帮助业务人员稳定获取YouTube视频字幕、X/Twitter公开帖文等原始数据。通过容器化部署与智能防护穿透能力，自动过滤广告干扰并验证数据完整性，为内容分析、舆情监测、竞品研究等场景提供纯净可靠的数据源，降低人工采集成本与技术门槛。

落地案例：市场团队需要批量分析竞品的YouTube视频策略时，只需提交目标视频URL，工具即可穿透平台防护提取完整字幕与描述信息，自动校验视频ID避免缓存错乱，输出结构化文本供进一步分析。同样适用于追踪品牌在社交平台的公开声量，快速沉淀可解读的内容资产，支撑决策效率。

能做什么

抓取 YouTube 视频字幕与描述信息
提取 X/Twitter 等平台公开内容
自动过滤广告与干扰信息，输出纯净数据
验证视频 ID 防止缓存污染

使用说明

前置要求：主机已安装并运行 Docker。

安装步骤：

将 skills/deep-scraper 目录复制到项目的 skills/ 文件夹
构建 Docker 镜像：
docker build -t clawd-crawlee skills/deep-scraper/

运行命令：

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [目标URL]

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标网页 URL（支持 YouTube、X/Twitter 等复杂站点）
输出	JSON 格式结果，含状态码、内容类型、视频ID、核心数据字段
适用人群	有 Docker 基础的技术人员、数据研究员、内容分析开发者
不包含	密码保护内容、登录态私密信息、非网页数据源接入

风险提示

禁止抓取密码保护或非公开的个人信息
需遵守目标网站的 robots.txt 及服务条款
高频请求可能导致 IP 被封禁
YouTube 等平台结构变更可能影响抓取稳定性

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/opsun/deep-scraper/SKILL.md
来源类型：GitHub 开源仓库

常见问题

Q1：深度网页抓取工具适合哪些场景？
A：适合需要「deep-scraper 是一款面向复杂网站的深度网页抓取工程工具，基于」的场景，尤其是希望快速验证并落地的团队与个人。

Q2：第一次使用应该先做什么？
A：先明确目标任务，再按照页面中的“能做什么”和“使用说明”完成最小可行流程。

Q3：如何判断是否值得长期使用？
A：建议连续使用 1-2 周，对比效率、稳定性和协作成本，再决定是否纳入长期工具栈。

替代方案

数据统计

浏览器自动化

浏览器自动化入门

浏览器自动化

线索自动捕获

下载 Markdown 文档保存原始技能说明，便于离线查看与...

浏览器自动化

暂无评论

暂无评论...

Deep数据抓取

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

常见问题

替代方案

相关推荐

数据统计

相关导航

浏览器自动化

浏览器自动化

浏览器自动化

浏览器自动化

浏览器自动化入门

浏览器自动化

线索自动捕获

浏览器自动化

暂无评论

Deep数据抓取

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

常见问题

替代方案

相关推荐

数据统计

相关导航

浏览器自动化

浏览器自动化

浏览器自动化

浏览器自动化

浏览器自动化入门

浏览器自动化

线索自动捕获

浏览器自动化

暂无评论

标签云