视觉沙盒分析

3小时前更新 2 00

Gemini代码执行

收录时间：

2026-02-25

开发与编程 # 代码执行 # 图像识别 # 坐标定位

视觉沙盒分析

视觉沙盒分析

技能简介

Vision Sandbox 调用 Gemini 原生代码执行沙盒，通过生成并运行 Python 代码来验证和分析图像内容，适用于界面元素定位、视觉数学计算和空间关系推理。

能做什么

返回界面元素的像素级坐标（如按钮中心点 [x, y]）
基于图像内容进行计数、求和等数学运算
检测 UI 布局问题（如文字与图标重叠）
为自动化编码代理提供结构化视觉元数据

使用说明

安装依赖：确保已安装 uv 工具链
配置密钥：设置环境变量 GEMINI_API_KEY
执行安装：
```
clawhub install vision-sandbox
```

运行分析：

uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates."

输入与输出

见下方输入与输出表格。

项目	内容
输入	图像文件路径 + 自然语言指令 + GEMINI_API_KEY
输出	结构化 JSON（坐标、计数、颜色值等）+ 执行日志
适用人群	前端开发、测试工程师、AI 代理系统集成者
不包含	多模态模型切换、离线推理、批量并行处理

风险提示

需有效 GEMINI_API_KEY，调用产生费用
沙盒执行存在网络延迟，不适合实时高频场景
坐标精度受原图分辨率影响，建议统一缩放基准
复杂遮挡或低对比度图像可能导致定位偏差

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/johanesalxd/vision-sandbox/SKILL.md
来源类型：GitHub 仓库

数据统计

相关导航

规范驱动开发

用OpenSpec管理开发流程

网格地图搜索

Google地点网格

Codex编排

Codex通用编排

macOS界面自动化

MLSCP协议解析

智能体通信压缩协议工

大模型参数微调

低显存微调大语言模型

内容精华提取

自动提炼核心观点

Reachy Mini机器人控制

Reachy Mini机器人控制

远程操控小型人形机器

暂无评论

none

暂无评论...