无障碍辅助工具包
残障人士语音优先自动
该技能通过Gemini 2.5 Computer Use模型驱动Playwright浏览器,实现网页任务的自动化执行。采用截图→函数调用→操作→响应的循环机制,让模型能够观察页面状态并决定下一步交互动作。
该工具让非技术人员用自然语言描述即可自动操作网页,适用于跨系统数据录入、信息检索等重复性浏览器任务。沙箱运行环境与人工确认机制平衡了效率与风控,支持主流浏览器渠道,便于适配企业现有IT环境,减少手工操作错误与时间成本。
落地案例:运营团队每日需从三个供应商后台抓取库存数据并汇总。配置Gemini浏览器自动化后,员工输入目标"登录A网站导出昨日库存报表,再登录B网站对比差异",设置6步回合限制和Chrome渠道。系统自动截图识别页面元素,遇到登录态异常时暂停请求人工介入,最终输出汇总结果与操作轨迹记录。
cp env.example env.sh
$EDITOR env.sh
source env.shpython -m venv .venv
source .venv/bin/activate
pip install google-genai playwright
playwright install chromiumpython scripts/computer_use_agent.py --prompt "查找example.com最新博客标题" --start-url "https://example.com" --turn-limit 6可选参数:使用--exclude屏蔽特定操作类型;通过环境变量切换浏览器渠道或指定可执行文件路径。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 用户目标描述(自然语言)、起始URL、回合数限制、浏览器渠道/可执行路径、排除操作列表 |
| 输出 | 任务结果文本、最终页面截图、URL访问记录、安全确认交互 |
| 适用人群 | 需自动化网页任务的开发者、构建AI代理的技术团队、具备沙箱部署能力的用户 |
| 不包含 | Firefox/Safari支持、离线免密钥模式、GUI面板、多用户并发管理 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/am-will/gemini-computer-use/SKILL.md
来源类型:GitHub仓库