视觉沙盒分析

3小时前更新 2 00
视觉沙盒分析视觉沙盒分析
视觉沙盒分析

技能简介

Vision Sandbox 调用 Gemini 原生代码执行沙盒,通过生成并运行 Python 代码来验证和分析图像内容,适用于界面元素定位、视觉数学计算和空间关系推理。

能做什么

  • 返回界面元素的像素级坐标(如按钮中心点 [x, y])
  • 基于图像内容进行计数、求和等数学运算
  • 检测 UI 布局问题(如文字与图标重叠)
  • 为自动化编码代理提供结构化视觉元数据

使用说明

  1. 安装依赖:确保已安装 uv 工具链
  2. 配置密钥:设置环境变量 GEMINI_API_KEY
  3. 执行安装:
    clawhub install vision-sandbox
  4. 运行分析:
    uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates."

输入与输出

见下方输入与输出表格。

项目内容
输入图像文件路径 + 自然语言指令 + GEMINI_API_KEY
输出结构化 JSON(坐标、计数、颜色值等)+ 执行日志
适用人群前端开发、测试工程师、AI 代理系统集成者
不包含多模态模型切换、离线推理、批量并行处理

 

风险提示

  • 需有效 GEMINI_API_KEY,调用产生费用
  • 沙盒执行存在网络延迟,不适合实时高频场景
  • 坐标精度受原图分辨率影响,建议统一缩放基准
  • 复杂遮挡或低对比度图像可能导致定位偏差

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/johanesalxd/vision-sandbox/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...