网页文档转PDF

3小时前更新 1 00
网页文档转PDF网页文档转PDF
网页文档转PDF

技能简介

docs-scraper 是一款命令行工具,通过浏览器自动化将 Notion 页面、DocSend 文档、直接 PDF 链接及其他网页内容抓取并转换为本地 PDF 文件。支持认证流程与会话持久化,适合需要批量下载、归档或离线保存网络文档的场景。

业务背景

业务人员常需保存分散在Notion、DocSend等平台的关键资料用于归档或离线查阅,但受限于平台权限与格式壁垒。该工具通过自动化浏览器操作突破访问限制,将网页内容统一转为本地PDF,解决文档分散管理难题,确保知识资产可控留存。

落地案例:市场部需整理过去一年存放在Notion知识库的产品方案与竞品分析,运营人员配置认证信息后批量导出私有页面为PDF;同时下载DocSend上受密码保护的投资人路演材料,统一存档至项目文件夹。所有文档转为标准化格式后,便于后续检索与合规审计。

能做什么

  • 将 Notion 公开或私有页面导出为 PDF
  • 下载 DocSend 受保护文档(支持邮箱、密码、NDA 验证)
  • 直接下载 PDF 链接文件
  • 对任意网页使用 LLM 辅助生成 PDF
  • 管理多站点登录会话,避免重复认证
  • 后台常驻守护进程加速连续抓取任务

使用说明

安装指令

npm install -g docs-scraper

基础用法

推荐方式(使用守护进程保持浏览器热启动):

docs-scraper scrape https://example.com/document

返回本地路径:~/.docs-scraper/output/1706123456-abc123.pdf

带认证信息抓取 DocSend:

docs-scraper scrape https://docsend.com/view/xxx -D email=user@example.com -D password=secret123

使用已保存的登录会话:

docs-scraper scrape https://notion.so/private-page -p myprofile

单条模式(不启动守护进程):

docs-scraper scrape https://example.com --no-daemon

认证流程

若文档需要额外验证,首次抓取会返回任务 ID:

docs-scraper scrape https://docsend.com/view/xxx
# 输出:Scrape blocked / Job ID: abc123

补充信息后重试:

docs-scraper update abc123 -D email=user@example.com -D password=1234

会话与清理

docs-scraper profiles list          # 查看已保存的登录会话
docs-scraper daemon status          # 检查守护进程状态
docs-scraper cleanup --older-than 1h  # 清理1小时前的临时文件

输入与输出

见下方输入与输出表格。

项目内容
输入目标文档URL;认证字段(email/password/name);会话配置名;运行模式标志
输出本地PDF文件路径字符串;阻塞任务ID(待认证);会话cookie文件
适用人群金融研究员、投资经理、知识库管理员、合规专员、技术文档工程师
不包含OCR文字识别、PDF内容解析、云存储集成、可视化界面

 

风险提示

  • 需妥善保管 -D 参数中的密码,避免在共享终端中明文输入
  • 会话配置文件存储于本地,多人共用设备时建议定期执行 profiles clear
  • LLM 回退模式消耗 Claude API 额度,高频使用请关注费用
  • 部分站点可能更新反爬机制,导致抓取失败

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/chrisling-dev/links-to-pdfs/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...