网页文档转PDF
抓取Notion、D
基于PyMuPDF(fitz)的本地PDF解析工具,以速度优先实现PDF到Markdown或JSON的快速转换,支持可选的图片与表格提取功能。
业务部门常需批量处理PDF合同、报告等文档,传统工具转换慢或格式混乱。本工具基于本地引擎实现高速解析,秒级将PDF转为可编辑的Markdown或结构化JSON,避免上传敏感文件至云端,同时支持图片与表格提取,满足快速归档、内容复用及二次开发需求。
落地案例:法务团队收到50份供应商PDF合同,需提取关键条款录入系统。使用本工具批量转换:指定–format json输出结构化数据,开启图片提取保存盖章页,生成的Markdown便于法务人员快速审阅批注,JSON则直接对接业务系统入库,全程本地处理保障合同机密性,较人工逐份复制效率提升数倍。
安装依赖
# 安装PyMuPDF
pip install PyMuPDF
若遇Nix环境libstdc++问题,参考references/pymupdf-notes.md。
基础用法
# 单PDF解析(默认Markdown输出)
./scripts/pymupdf_parse.py /path/to/file.pdf \
--format md \
--outroot ./pymupdf-output
常用选项
--format md|json|both:指定输出格式,默认md--images:提取图片--tables:提取简易表格JSON--outroot DIR:修改输出根目录--lang:在JSON元数据中添加语言标记见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | PDF文件路径;格式参数(–format md/json/both);输出目录(–outroot);图片/表格提取开关;语言标记(–lang) |
| 输出 | Markdown文件(output.md)、JSON文件(output.json)、图片目录(images/)、表格文件(tables.json),均位于<pdf-basename>/子目录下 |
| 适用人群 | 需快速处理PDF的分析师、开发人员;追求速度而非极致精度的场景用户;有Python环境的本地工作者 |
| 不包含 | OCR识别能力、复杂版式精确还原、企业级表格解析、云端API调用、图形化界面 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/kesslerio/pymupdf-pdf-parser-clawdbot-skill/SKILL.md
来源类型:GitHub仓库