规范驱动开发
用OpenSpec管理开发流程
Vision Sandbox 调用 Gemini 原生代码执行沙盒,通过生成并运行 Python 代码来验证和分析图像内容,适用于界面元素定位、视觉数学计算和空间关系推理。
uv 工具链GEMINI_API_KEYclawhub install vision-sandbox
uv run vision-sandbox --image "path/to/image.png" --prompt "Identify all buttons and provide [x, y] coordinates."
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 图像文件路径 + 自然语言指令 + GEMINI_API_KEY |
| 输出 | 结构化 JSON(坐标、计数、颜色值等)+ 执行日志 |
| 适用人群 | 前端开发、测试工程师、AI 代理系统集成者 |
| 不包含 | 多模态模型切换、离线推理、批量并行处理 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/johanesalxd/vision-sandbox/SKILL.md
来源类型:GitHub 仓库