PDF处理工具包
PDF文本提取与文档
DeepRead 是一款生产级文档处理 API,通过 AI 驱动的置信度评分机制,将人工复核比例从 100% 降至约 10%。该服务支持 PDF 转 Markdown、JSON 字段提取,并自动标记需要人工确认的字段。
1. 获取 API Key
访问 https://www.deepread.tech/dashboard 注册账号并创建 API Key。
export DEEPREAD_API_KEY="sk_live_your_key_here"
2. 可选:Clawdbot 配置
在 clawdbot.config.json5 中添加:
{
skills: {
entries: {
"deepread": {
enabled: true,
apiKey: "sk_live_your_key_here"
}
}
}
}
3. 处理文档(Webhook 方式,推荐)
curl -X POST https://api.deepread.tech/v1/process \
-H "X-API-Key: $DEEPREAD_API_KEY" \
-F "file=@document.pdf" \
-F "webhook_url=https://your-app.com/webhooks/deepread"
返回任务 ID 后立即响应,处理完成后(约 2-5 分钟)结果推送至指定 Webhook。
4. 处理文档(轮询方式)
# 上传文件
curl -X POST https://api.deepread.tech/v1/process \
-H "X-API-Key: $DEEPREAD_API_KEY" \
-F "file=@document.pdf"
# 轮询结果
curl https://api.deepread.tech/v1/jobs/JOB_ID \
-H "X-API-Key: $DEEPREAD_API_KEY"
5. 结构化数据提取(带 Schema)
curl -X POST https://api.deepread.tech/v1/process \
-H "X-API-Key: $DEEPREAD_API_KEY" \
-F "file=@invoice.pdf" \
-F 'schema={
"type": "object",
"properties": {
"vendor": {"type": "string"},
"total": {"type": "number"},
"invoice_date": {"type": "string"}
}
}'
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | PDF 文件;可选 JSON Schema 定义提取字段;可选 Webhook 回调地址;API Key 认证 |
| 输出 | Markdown 文本、结构化 JSON、字段级置信度评分、人工复核标记 hil_flag、元数据统计(需复核字段占比) |
| 适用人群 | 需批量处理 PDF 并提取结构化数据的企业;希望减少人工审核工作量的财务、法务、运营团队 |
| 不包含 | 非 PDF 格式原生支持、实时同步接口、持久化存储、可视化校对工具 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/uday390/deepread/SKILL.md
来源类型:GitHub 仓库