深度网页抓取工具

1小时前更新 1 00
深度网页抓取工具深度网页抓取工具
深度网页抓取工具

技能简介

deep-scraper 是一款面向复杂网站的深度网页抓取工程工具,基于 Docker + Crawlee (Playwright) 容器化环境运行,可穿透 YouTube、X/Twitter 等平台的防护机制,获取原始级数据内容。

业务背景

深度网页抓取工具专为突破主流平台的内容壁垒而设计,帮助业务人员稳定获取YouTube视频字幕、X/Twitter公开帖文等原始数据。通过容器化部署与智能防护穿透能力,自动过滤广告干扰并验证数据完整性,为内容分析、舆情监测、竞品研究等场景提供纯净可靠的数据源,降低人工采集成本与技术门槛。

落地案例:市场团队需要批量分析竞品的YouTube视频策略时,只需提交目标视频URL,工具即可穿透平台防护提取完整字幕与描述信息,自动校验视频ID避免缓存错乱,输出结构化文本供进一步分析。同样适用于追踪品牌在社交平台的公开声量,快速沉淀可解读的内容资产,支撑决策效率。

能做什么

  • 抓取 YouTube 视频字幕与描述信息
  • 提取 X/Twitter 等平台公开内容
  • 自动过滤广告与干扰信息,输出纯净数据
  • 验证视频 ID 防止缓存污染

使用说明

前置要求:主机已安装并运行 Docker。

安装步骤

  1. skills/deep-scraper 目录复制到项目的 skills/ 文件夹
  2. 构建 Docker 镜像:
    docker build -t clawd-crawlee skills/deep-scraper/

运行命令

docker run -t --rm -v $(pwd)/skills/deep-scraper/assets:/usr/src/app/assets clawd-crawlee node assets/main_handler.js [目标URL]

输入与输出

见下方输入与输出表格。

项目内容
输入目标网页 URL(支持 YouTube、X/Twitter 等复杂站点)
输出JSON 格式结果,含状态码、内容类型、视频ID、核心数据字段
适用人群有 Docker 基础的技术人员、数据研究员、内容分析开发者
不包含密码保护内容、登录态私密信息、非网页数据源接入

 

风险提示

  • 禁止抓取密码保护或非公开的个人信息
  • 需遵守目标网站的 robots.txt 及服务条款
  • 高频请求可能导致 IP 被封禁
  • YouTube 等平台结构变更可能影响抓取稳定性

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/opsun/deep-scraper/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...