需求驱动设计
将粗略想法转为详细设
针对大模型输入特点优化的文档解析流水线。根据PDF类型智能选择提取策略,保留结构化信息的同时控制token消耗,为RAG与文档问答准备高质量语料。
uv run scripts/extract_pymupdf.py input.pdf output.md
uv run scripts/extract_pdfplumber.py input.pdf output.md
extracting-pdf-text
见下方输入与输出表格。
| 输入 | 输出 |
|---|---|
| 文档文件或原始内容;转换、整理或审阅要求;输出格式需求 | 处理后的文档结果;关键信息摘要;可继续流转的结构化内容 |
原始链接:https://github.com/letta-ai/skills
来源类型:GitHub 开源仓库