PDF处理工具包

3小时前更新 1 00
PDF处理工具包PDF处理工具包
PDF处理工具包

技能简介

基于Python库和命令行工具的PDF综合处理方案,支持文本与表格提取、新建PDF、合并拆分文档及表单处理。

能做什么

  • 从PDF中提取纯文本,保留原始排版格式
  • 识别并导出PDF中的表格数据到Excel
  • 将多个PDF文件合并为单一文档
  • 按页码范围拆分PDF为独立文件
  • 旋转指定页面或整份文档
  • 读取和修改PDF元数据信息
  • 使用reportlab生成新的PDF文档
  • 通过命令行工具快速处理批量文件

使用说明

环境准备

# 安装Python依赖
pip install pypdf pdfplumber reportlab pandas openpyxl

# Linux系统安装命令行工具
sudo apt-get install poppler-utils qpdf pdftk

基础用法示例

1. 提取文本内容

from pypdf import PdfReader
reader = PdfReader("document.pdf")
text = ""
for page in reader.pages:
    text += page.extract_text()

2. 提取表格数据

import pdfplumber
with pdfplumber.open("document.pdf") as pdf:
    for page in pdf.pages:
        tables = page.extract_tables()
        for table in tables:
            print(table)

3. 合并多个PDF

from pypdf import PdfWriter, PdfReader
writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf"]:
    reader = PdfReader(pdf_file)
    for page in reader.pages:
        writer.add_page(page)
with open("merged.pdf", "wb") as output:
    writer.write(output)

4. 命令行快速处理

# 提取文本
pdftotext -layout input.pdf output.txt

# 合并文件
qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf

输入与输出

见下方输入与输出表格。

项目内容
输入PDF文件路径;可选参数包括页码范围、文档密码、输出格式指定
输出提取的文本字符串;表格数据(支持导出CSV/Excel);新生成的PDF文件;文档元数据信息
适用人群需要批量处理PDF的办公人员;从报表中提取数据的分析师;需在程序中集成PDF功能的开发人员;搭建自动化文档处理工作流的工程师
不包含扫描件OCR识别;直接编辑修改PDF现有内容;复杂图形渲染;数字签名验证与证书管理

 

风险提示

  • 扫描版PDF需先进行OCR识别才能提取文字
  • 加密PDF需提供密码才能处理
  • 复杂表格的自动识别可能存在格式偏差,建议人工核对
  • 批量处理前请备份原始文件
  • 部分字体嵌入方式可能导致提取文本出现乱码

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/seanphan/pdf-2/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...