网页内容抓取归档

20分钟前更新 1 00
网页内容抓取归档网页内容抓取归档
网页内容抓取归档

技能简介

grab 是一款命令行工具,用于从 URL 下载并归档内容,支持 X(Twitter)帖子、X 文章、Reddit 帖子和 YouTube 视频。自动提取媒体、文本、转录稿,并可生成 AI 摘要,按日期和内容描述整理到文件夹中。

业务背景

市场与运营团队常需留存社交媒体热点素材用于复盘或合规存档。本工具自动抓取X帖子、Reddit讨论及YouTube视频,提取文本、媒体与转录内容并生成AI摘要,省去手动下载整理的繁琐流程,确保关键信息完整留档、随时可查。

落地案例:某品牌监测到X平台出现用户自发的产品测评视频,运营人员输入链接后,工具自动下载视频、提取字幕并生成内容摘要,连同原帖图片一并归档至日期文件夹。后续团队做季度UGC分析时,无需翻找历史链接即可直接调用完整素材与文字概要。

能做什么

  • 下载 X 帖子:保存推文文本、图片、视频,自动生成视频转录和摘要
  • 下载 X 长文章:提取完整文章内容,生成 AI 摘要
  • 下载 Reddit 帖子:保存标题、正文、评论、图片、视频及转录
  • 下载 YouTube 视频:保存视频、缩略图、描述、音频转录和摘要
  • 本地语音转录:使用 Whisper turbo 模型,无需联网或 API 密钥
  • 智能文件夹命名:可选 AI 分析内容后生成描述性文件夹名称

使用说明

安装依赖(必需):

brew install yt-dlp ffmpeg openai-whisper

配置保存路径:首次运行会提示选择保存目录(默认 ~/Dropbox/ClawdBox/),配置存储于 ~/.config/grab/config,可随时用 grab –config 修改。

基本用法

grab <url>              # 下载并归档指定 URL
grab --config           # 重新配置保存目录
grab --help             # 显示帮助信息

启用 AI 功能(可选):设置环境变量 OPENAI_API_KEY 可开启 AI 摘要和智能文件夹命名;不设置时媒体下载和本地转录仍可正常使用。

输入与输出

见下方输入与输出表格。

项目内容
输入目标URL(支持x.com/twitter.com、Reddit、YouTube);本地保存路径配置;可选的OPENAI_API_KEY环境变量
输出按平台分类的整理文件夹,内含:文本内容文件、媒体文件(mp4/jpg)、本地转录稿(transcript.txt)、AI摘要(summary.txt,需API密钥)
适用人群需要归档社交媒体内容的个人用户、研究人员、内容创作者、希望本地化管理网络资料的用户
不包含任意网站的通用爬虫功能、云端SaaS服务、实时直播录制、自动绕过付费墙机制

 

风险提示

  • 依赖 yt-dlp、ffmpeg、whisper 三个外部工具,任一缺失将导致功能异常
  • X 文章检测时会以退出码 2 终止并输出 ARTICLE_DETECTED 标记,需配合 OpenClaw 浏览器处理
  • Reddit JSON API 被拦截时以退出码 3 终止,同样需回退到浏览器方案
  • AI 摘要功能依赖 OpenAI API,存在数据外传风险
  • 批量下载大量内容可能触发平台速率限制

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/jamesalmeida/grab/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...