Boggle单词求解器
4x4字母网格找词工
基于Python库和命令行工具的PDF综合处理方案,支持文本与表格提取、新建PDF、合并拆分文档及表单处理。
环境准备
# 安装Python依赖
pip install pypdf pdfplumber reportlab pandas openpyxl
# Linux系统安装命令行工具
sudo apt-get install poppler-utils qpdf pdftk
基础用法示例
1. 提取文本内容
from pypdf import PdfReader
reader = PdfReader("document.pdf")
text = ""
for page in reader.pages:
text += page.extract_text()
2. 提取表格数据
import pdfplumber
with pdfplumber.open("document.pdf") as pdf:
for page in pdf.pages:
tables = page.extract_tables()
for table in tables:
print(table)
3. 合并多个PDF
from pypdf import PdfWriter, PdfReader
writer = PdfWriter()
for pdf_file in ["doc1.pdf", "doc2.pdf"]:
reader = PdfReader(pdf_file)
for page in reader.pages:
writer.add_page(page)
with open("merged.pdf", "wb") as output:
writer.write(output)
4. 命令行快速处理
# 提取文本
pdftotext -layout input.pdf output.txt
# 合并文件
qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | PDF文件路径;可选参数包括页码范围、文档密码、输出格式指定 |
| 输出 | 提取的文本字符串;表格数据(支持导出CSV/Excel);新生成的PDF文件;文档元数据信息 |
| 适用人群 | 需要批量处理PDF的办公人员;从报表中提取数据的分析师;需在程序中集成PDF功能的开发人员;搭建自动化文档处理工作流的工程师 |
| 不包含 | 扫描件OCR识别;直接编辑修改PDF现有内容;复杂图形渲染;数字签名验证与证书管理 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/seanphan/pdf-2/SKILL.md
来源类型:GitHub仓库