PDF文档处理

1小时前更新 1 00
PDF文档处理PDF文档处理
PDF文档处理

技能简介

Nutrient Document Processing 是面向 OpenClaw 的文档处理插件,通过 Nutrient DWS API 实现 PDF 与 Office 文档的格式转换、文本提取、OCR 识别、敏感信息脱敏、数字签名水印添加等功能。

业务背景

企业日常需处理大量合同、报表、发票等文档,格式转换、信息提取与隐私保护耗时费力。该插件将 PDF 与 Office 文档的互转、OCR 识别、敏感信息脱敏等功能集成至 OpenClaw 工作流,员工无需切换工具即可完成文档处理,降低人工操作成本,同时确保合规要求下的数据安全。

落地案例:财务部门收到供应商发来的扫描版纸质发票,需要录入系统并归档。员工通过指令调用插件:先对扫描件执行 OCR 提取文字和金额,再转为可编辑的 Excel 表格核对数据,最后脱敏处理隐藏供应商银行账户信息,生成标准 PDF 存档。全程在同一平台完成,避免多工具切换和数据泄露风险。

能做什么

  • 将 DOCX/XLSX/PPTX/HTML/图片转换为 PDF,或反向转换为 Office 格式
  • 从 PDF 中提取纯文本、表格数据或键值对
  • 对扫描件或图片执行 OCR 文字识别
  • 按预设规则(SSN、邮箱、电话)或 AI 自动检测并脱敏 PII 信息
  • 为 PDF 添加文字或图片水印
  • 对 PDF 文档进行数字签名
  • 查询 API 额度与使用统计

使用说明

1. 安装插件

openclaw plugins install @nutrient-sdk/nutrient-openclaw

2. 配置 API 密钥

在配置文件中添加:

plugins:
  entries:
    nutrient-openclaw:
      config:
        apiKey: "your-api-key-here"

前往 nutrient.io/api 获取 API 密钥。

3. 开始使用

通过自然语言指令调用,例如:”将这份 Word 文档转为 PDF”、”提取这张扫描收据的文字”、”脱敏这份文件中的个人信息”。

输入与输出

见下方输入与输出表格。

项目内容
输入PDF、DOCX、XLSX、PPTX、HTML、PNG、JPEG、WebP 等格式文件;处理指令;API 密钥
输出转换后的目标格式文件、提取的文本/表格/键值对、OCR 识别结果、脱敏后的文档、带签名/水印的 PDF、API 额度信息
适用人群企业文档管理员、金融合规人员、法务工作者、需要自动化文档流程的开发团队
不包含本地离线处理、CAD/视频/音频等专业格式支持、免费无限制调用额度

 

风险提示

  • API 调用按页数计费,需关注额度消耗
  • 敏感文档上传至第三方服务,需确认合规要求
  • OCR 与 AI 脱敏结果建议人工复核
  • 数字签名需妥善保管证书与密钥

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/jdrhyne/nutrient-document-processing/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...