网页内容抓取归档

20分钟前更新 1 00

下载并整理URL内容

收录时间：

2026-02-26

手机查看

网页内容抓取归档

技能简介

grab 是一款命令行工具，用于从 URL 下载并归档内容，支持 X（Twitter）帖子、X 文章、Reddit 帖子和 YouTube 视频。自动提取媒体、文本、转录稿，并可生成 AI 摘要，按日期和内容描述整理到文件夹中。

业务背景

市场与运营团队常需留存社交媒体热点素材用于复盘或合规存档。本工具自动抓取X帖子、Reddit讨论及YouTube视频，提取文本、媒体与转录内容并生成AI摘要，省去手动下载整理的繁琐流程，确保关键信息完整留档、随时可查。

落地案例：某品牌监测到X平台出现用户自发的产品测评视频，运营人员输入链接后，工具自动下载视频、提取字幕并生成内容摘要，连同原帖图片一并归档至日期文件夹。后续团队做季度UGC分析时，无需翻找历史链接即可直接调用完整素材与文字概要。

能做什么

下载 X 帖子：保存推文文本、图片、视频，自动生成视频转录和摘要
下载 X 长文章：提取完整文章内容，生成 AI 摘要
下载 Reddit 帖子：保存标题、正文、评论、图片、视频及转录
下载 YouTube 视频：保存视频、缩略图、描述、音频转录和摘要
本地语音转录：使用 Whisper turbo 模型，无需联网或 API 密钥
智能文件夹命名：可选 AI 分析内容后生成描述性文件夹名称

使用说明

安装依赖（必需）：

brew install yt-dlp ffmpeg openai-whisper

配置保存路径：首次运行会提示选择保存目录（默认 ~/Dropbox/ClawdBox/），配置存储于 ~/.config/grab/config，可随时用 grab –config 修改。

基本用法：

grab <url>              # 下载并归档指定 URL
grab --config           # 重新配置保存目录
grab --help             # 显示帮助信息

启用 AI 功能（可选）：设置环境变量 OPENAI_API_KEY 可开启 AI 摘要和智能文件夹命名；不设置时媒体下载和本地转录仍可正常使用。

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标URL（支持x.com/twitter.com、Reddit、YouTube）；本地保存路径配置；可选的OPENAI_API_KEY环境变量
输出	按平台分类的整理文件夹，内含：文本内容文件、媒体文件（mp4/jpg）、本地转录稿（transcript.txt）、AI摘要（summary.txt，需API密钥）
适用人群	需要归档社交媒体内容的个人用户、研究人员、内容创作者、希望本地化管理网络资料的用户
不包含	任意网站的通用爬虫功能、云端SaaS服务、实时直播录制、自动绕过付费墙机制

风险提示

依赖 yt-dlp、ffmpeg、whisper 三个外部工具，任一缺失将导致功能异常
X 文章检测时会以退出码 2 终止并输出 ARTICLE_DETECTED 标记，需配合 OpenClaw 浏览器处理
Reddit JSON API 被拦截时以退出码 3 终止，同样需回退到浏览器方案
AI 摘要功能依赖 OpenAI API，存在数据外传风险
批量下载大量内容可能触发平台速率限制

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/jamesalmeida/grab/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

网页内容抓取归档

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

视频下载助手

智能视频生成

图像转浮雕STL

Meshy.ai资源生成

Canva设计管理

Scrappa数据抓取

语音笔记同步

Venice AI 媒体生成

暂无评论

标签云