智能合约仲裁协议
代理商业身份与支付基
docs-scraper 是一款命令行工具,通过浏览器自动化将 Notion 页面、DocSend 文档、直接 PDF 链接及其他网页内容抓取并转换为本地 PDF 文件。支持认证流程与会话持久化,适合需要批量下载、归档或离线保存网络文档的场景。
业务人员常需保存分散在Notion、DocSend等平台的关键资料用于归档或离线查阅,但受限于平台权限与格式壁垒。该工具通过自动化浏览器操作突破访问限制,将网页内容统一转为本地PDF,解决文档分散管理难题,确保知识资产可控留存。
落地案例:市场部需整理过去一年存放在Notion知识库的产品方案与竞品分析,运营人员配置认证信息后批量导出私有页面为PDF;同时下载DocSend上受密码保护的投资人路演材料,统一存档至项目文件夹。所有文档转为标准化格式后,便于后续检索与合规审计。
安装指令
npm install -g docs-scraper
基础用法
推荐方式(使用守护进程保持浏览器热启动):
docs-scraper scrape https://example.com/document
返回本地路径:~/.docs-scraper/output/1706123456-abc123.pdf
带认证信息抓取 DocSend:
docs-scraper scrape https://docsend.com/view/xxx -D email=user@example.com -D password=secret123
使用已保存的登录会话:
docs-scraper scrape https://notion.so/private-page -p myprofile
单条模式(不启动守护进程):
docs-scraper scrape https://example.com --no-daemon
认证流程
若文档需要额外验证,首次抓取会返回任务 ID:
docs-scraper scrape https://docsend.com/view/xxx
# 输出:Scrape blocked / Job ID: abc123
补充信息后重试:
docs-scraper update abc123 -D email=user@example.com -D password=1234
会话与清理
docs-scraper profiles list # 查看已保存的登录会话
docs-scraper daemon status # 检查守护进程状态
docs-scraper cleanup --older-than 1h # 清理1小时前的临时文件
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 目标文档URL;认证字段(email/password/name);会话配置名;运行模式标志 |
| 输出 | 本地PDF文件路径字符串;阻塞任务ID(待认证);会话cookie文件 |
| 适用人群 | 金融研究员、投资经理、知识库管理员、合规专员、技术文档工程师 |
| 不包含 | OCR文字识别、PDF内容解析、云存储集成、可视化界面 |
-D 参数中的密码,避免在共享终端中明文输入profiles clear原始链接:https://github.com/openclaw/skills/tree/main/skills/chrisling-dev/links-to-pdfs/SKILL.md
来源类型:GitHub 仓库