网页文档转PDF

3小时前更新 1 00

抓取Notion、D

收录时间：

2026-02-26

手机查看

网页文档转PDF

技能简介

docs-scraper 是一款命令行工具，通过浏览器自动化将 Notion 页面、DocSend 文档、直接 PDF 链接及其他网页内容抓取并转换为本地 PDF 文件。支持认证流程与会话持久化，适合需要批量下载、归档或离线保存网络文档的场景。

业务背景

业务人员常需保存分散在Notion、DocSend等平台的关键资料用于归档或离线查阅，但受限于平台权限与格式壁垒。该工具通过自动化浏览器操作突破访问限制，将网页内容统一转为本地PDF，解决文档分散管理难题，确保知识资产可控留存。

落地案例：市场部需整理过去一年存放在Notion知识库的产品方案与竞品分析，运营人员配置认证信息后批量导出私有页面为PDF；同时下载DocSend上受密码保护的投资人路演材料，统一存档至项目文件夹。所有文档转为标准化格式后，便于后续检索与合规审计。

能做什么

将 Notion 公开或私有页面导出为 PDF
下载 DocSend 受保护文档（支持邮箱、密码、NDA 验证）
直接下载 PDF 链接文件
对任意网页使用 LLM 辅助生成 PDF
管理多站点登录会话，避免重复认证
后台常驻守护进程加速连续抓取任务

使用说明

安装指令

npm install -g docs-scraper

基础用法

推荐方式（使用守护进程保持浏览器热启动）：

docs-scraper scrape https://example.com/document

返回本地路径：~/.docs-scraper/output/1706123456-abc123.pdf

带认证信息抓取 DocSend：

docs-scraper scrape https://docsend.com/view/xxx -D email=user@example.com -D password=secret123

使用已保存的登录会话：

docs-scraper scrape https://notion.so/private-page -p myprofile

单条模式（不启动守护进程）：

docs-scraper scrape https://example.com --no-daemon

认证流程

若文档需要额外验证，首次抓取会返回任务 ID：

docs-scraper scrape https://docsend.com/view/xxx
# 输出：Scrape blocked / Job ID: abc123

补充信息后重试：

docs-scraper update abc123 -D email=user@example.com -D password=1234

会话与清理

docs-scraper profiles list          # 查看已保存的登录会话
docs-scraper daemon status          # 检查守护进程状态
docs-scraper cleanup --older-than 1h  # 清理1小时前的临时文件

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标文档URL；认证字段（email/password/name）；会话配置名；运行模式标志
输出	本地PDF文件路径字符串；阻塞任务ID（待认证）；会话cookie文件
适用人群	金融研究员、投资经理、知识库管理员、合规专员、技术文档工程师
不包含	OCR文字识别、PDF内容解析、云存储集成、可视化界面

风险提示

需妥善保管 -D 参数中的密码，避免在共享终端中明文输入
会话配置文件存储于本地，多人共用设备时建议定期执行 profiles clear
LLM 回退模式消耗 Claude API 额度，高频使用请关注费用
部分站点可能更新反爬机制，导致抓取失败

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/chrisling-dev/links-to-pdfs/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

网页文档转PDF

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

智能合约仲裁协议

Straker翻译验证

AI文本人性化

Soulseek文件共享

无头浏览器自动化

Crunch协议自然语言接口

PDF智能编辑

Instruments性能分析

暂无评论

标签云