网页文档转PDF
抓取Notion、D
DocStrange 是 Nanonets 提供的文档提取 API,支持将 PDF、图片等文件转换为 Markdown、JSON 或 CSV 格式,并附带字段级置信度评分。
将非结构化的纸质单据、扫描件转化为可直接使用的结构化数据,消除人工录入环节。财务、采购等部门可批量处理发票、合同等文档,缩短单据处理周期,同时通过置信度评分识别存疑字段,保障数据准确性。
落地案例:应付会计收到供应商PDF发票后,调用API提取金额、税号、开票日期等字段,直接写入ERP系统。对于手写备注或模糊印章区域,系统标记低置信度提示人工复核,避免将错误数据导入账务流程。月度数百张发票的处理时间从两天压缩至数小时。
1. 获取 API Key
访问 https://docstrange.nanonets.com/app 注册并获取密钥。
2. 安装配置
推荐通过环境变量配置(无需额外安装包):
export DOCSTRANGE_API_KEY="your_api_key_here"
OpenClaw 配置示例:
{
skills: {
entries: {
"docstrange": {
enabled: true
}
}
}
}
3. 基础调用
curl -X POST "https://extraction-api.nanonets.com/api/v1/extract/sync" \
-H "Authorization: Bearer $DOCSTRANGE_API_KEY" \
-F "file=@document.pdf" \
-F "output_format=markdown"
4. 提取指定字段(JSON 输出)
curl -X POST "https://extraction-api.nanonets.com/api/v1/extract/sync" \
-H "Authorization: Bearer $DOCSTRANGE_API_KEY" \
-F "file=@invoice.pdf" \
-F "output_format=json" \
-F 'json_options=["invoice_number","date","total_amount"]'
5. 大文档异步处理
# 提交任务
curl -X POST "https://extraction-api.nanonets.com/api/v1/extract/async" ...
# 轮询结果
curl -X GET "https://extraction-api.nanonets.com/api/v1/extract/results/{record_id}" ...
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | PDF、PNG、JPG 等格式的文档或图片文件;输出格式参数;可选字段列表或 JSON Schema |
| 输出 | Markdown 文本、JSON 结构化数据、CSV 表格;附带置信度评分与元数据 |
| 适用人群 | 需要自动化文档处理的开发者、财务系统建设者、企业信息化团队 |
| 不包含 | 音视频处理、手写体识别、设计稿解析、流式实时处理 |
chmod 600 ~/.openclaw/openclaw.json原始链接:https://github.com/openclaw/skills/tree/main/skills/shhdwi/docstrange/SKILL.md
来源类型:GitHub 仓库