本地PDF解析本地PDF解析
本地PDF解析

技能简介

MinerU PDF 是一个在本地 CPU 环境下运行的 PDF 解析工具,可将 PDF 文档转换为 Markdown 或 JSON 格式,支持表格与图片内容的提取。

能做什么

  • 将单份 PDF 转换为结构化 Markdown 文本
  • 输出包含版式信息的 JSON 数据
  • 按需提取文档中的表格内容
  • 按需提取文档中的图片资源

使用说明

安装准备

本技能依赖 MinerU 工具链,需确保系统已安装 Python 3.8+ 及相应依赖库。具体安装步骤请参照原始仓库文档完成环境配置。

执行解析

  1. 进入技能目录
  2. 运行解析脚本:./scripts/mineru_parse.sh /path/to/file.pdf
  3. 查看输出结果(默认路径:./mineru-output/<文件名>/

可选参数

  • --format json:指定输出格式为 JSON
  • --tables:启用表格提取
  • --images:启用图片提取

输入与输出

见下方输入与输出表格。

项目内容
输入本地 PDF 文件路径;可选参数:–format、–tables、–images
输出Markdown 文件、JSON 数据、表格文件、图片文件(均保存至 ./mineru-output/ 下子目录)
适用人群需在本地离线环境处理 PDF 的开发者、金融数据分析人员、有数据安全合规要求的团队
不包含GPU 加速、云端服务、自动批量目录解析功能

 

风险提示

  • 仅支持单文件解析,批量处理需额外开发
  • 复杂版式可能导致解析偏差
  • 扫描件 OCR 质量取决于源文件清晰度
  • 大文件处理耗时较长

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/kesslerio/mineru-pdf-parser-clawdbot-skill/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...