PDF文本提取优化

15小时前更新 0 00

面向LLM的PDF文本提取方案，支持Mistral OCR等API服务及PyMuPDF/pdfplumber本地工具，处理图文混排与表格。

收录时间：

2026-03-06

PDF与文档处理 # PDF # 文档 # 自动化

PDF文本提取优化

PDF文本提取优化

技能简介

针对大模型输入特点优化的文档解析流水线。根据PDF类型智能选择提取策略，保留结构化信息的同时控制token消耗，为RAG与文档问答准备高质量语料。

能做什么

读取并整理文档内容
转换格式与提取关键信息
输出可继续流转的文档结果

使用说明

提供原始文档和处理目标。
按规则读取、转换或整理内容。
核对输出格式与关键信息。

uv run scripts/extract_pymupdf.py input.pdf output.md

uv run scripts/extract_pdfplumber.py input.pdf output.md

英文名

extracting-pdf-text

输入与输出

见下方输入与输出表格。

输入	输出
文档文件或原始内容；转换、整理或审阅要求；输出格式需求	处理后的文档结果；关键信息摘要；可继续流转的结构化内容

风险提示

涉及外部平台接口、账号或权限时，先确认授权边界与数据访问范围。
自动生成或自动执行结果应保留人工复核，避免直接替代最终业务判断。
若处理内部资料、客户信息或经营数据，应先完成脱敏与权限控制。

来源信息

原始链接：https://github.com/letta-ai/skills
来源类型：GitHub 开源仓库

数据统计

相关导航

需求驱动设计

将粗略想法转为详细设

Intercom自动化

技能简介该技能支持通过Rube MCP接入Composio的...

Excel表格

连接 jwadow/mcp-excel，用于办公流程自动化、文档协同和团队执行提效。

Jira任务

连接 HainanZhao/mcp-gitlab-jira，用于办公流程自动化、文档协同和团队执行提效。

Gumroad管理工具

命令行管理Gumro

Dxf图纸生成

从JSON生成制造级

AI营销技能矩阵

42项营销技能的AI编码代理系统，分设内容、SEO、CRO、渠道、增长、情报、销售7个专业小组。

技能助手

技能简介技能助手相关能力，用于代码库理解、结构梳理和工程文档...

暂无评论

none

暂无评论...