图像智能分析

1小时前更新 2 00
图像智能分析图像智能分析
图像智能分析

技能简介

该技能集成 Google Cloud Vision API,可对本地或网络图像执行标签检测与光学字符识别(OCR),适用于金融票据、合同扫描件等场景的快速信息提取。

业务背景

图像智能分析帮助业务人员快速从图片中获取关键信息。上传金融票据、合同扫描件等文件,系统自动识别图中物体场景并提取文字内容,省去人工录入和核对时间,提升文档处理效率。

落地案例:财务人员收到供应商发来的纸质发票照片,使用该技能上传图片后,系统自动识别发票中的金额、日期、税号等关键字段并转为可编辑文本,无需手工录入系统,大幅减少票据处理时间,降低人为输错风险。

能做什么

  • 自动识别图像中的物体、场景及活动标签
  • 提取图片内的印刷体或手写文字内容
  • 支持本地文件路径与公开URL两种输入方式

使用说明

  1. 确保已配置 Google Cloud 项目并启用 Vision API
  2. 设置环境变量 GOOGLE_APPLICATION_CREDENTIALS 指向服务账号密钥文件
  3. 安装依赖:pip install google-cloud-vision
  4. 执行命令:vision_analyze /path/to/image.pngvision_analyze https://example.com/image.jpg

输入与输出

见下方输入与输出表格。

项目内容
输入本地图像文件路径 或 公开可访问的图像URL
输出图像标签检测结果、OCR提取的文字字符串
适用人群金融数据处理人员、RPA开发者、文档数字化团队
不包含人脸识别、视频分析、图像生成、多语言翻译

 

风险提示

  • 需有效 Google Cloud 账号及计费绑定,API 调用产生费用
  • 上传敏感财务图像前确认符合数据合规要求
  • 网络图像 URL 需公开可访问,私有链接将解析失败
  • OCR 结果受图像质量影响,复杂排版需人工复核

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/humberto0o0/vision-analyze/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...