Gemini浏览器自动化Gemini浏览器自动化
Gemini浏览器自动化

技能简介

该技能通过Gemini 2.5 Computer Use模型驱动Playwright浏览器,实现网页任务的自动化执行。采用截图→函数调用→操作→响应的循环机制,让模型能够观察页面状态并决定下一步交互动作。

业务背景

该工具让非技术人员用自然语言描述即可自动操作网页,适用于跨系统数据录入、信息检索等重复性浏览器任务。沙箱运行环境与人工确认机制平衡了效率与风控,支持主流浏览器渠道,便于适配企业现有IT环境,减少手工操作错误与时间成本。

落地案例:运营团队每日需从三个供应商后台抓取库存数据并汇总。配置Gemini浏览器自动化后,员工输入目标"登录A网站导出昨日库存报表,再登录B网站对比差异",设置6步回合限制和Chrome渠道。系统自动截图识别页面元素,遇到登录态异常时暂停请求人工介入,最终输出汇总结果与操作轨迹记录。

能做什么

  • 自动浏览网页并完成指定目标(如查找信息、填写表单)
  • 在沙箱环境中运行浏览器任务,降低安全风险
  • 对高风险UI操作触发人工确认机制
  • 支持自定义浏览器渠道(Chrome/Edge/Brave等)

使用说明

  1. 配置环境变量
    复制示例文件并编辑API密钥:
    cp env.example env.sh
    $EDITOR env.sh
    source env.sh
  2. 安装依赖
    创建虚拟环境并安装所需包:
    python -m venv .venv
    source .venv/bin/activate
    pip install google-genai playwright
    playwright install chromium
  3. 运行任务
    执行代理脚本并传入提示词:
    python scripts/computer_use_agent.py --prompt "查找example.com最新博客标题" --start-url "https://example.com" --turn-limit 6

可选参数:使用--exclude屏蔽特定操作类型;通过环境变量切换浏览器渠道或指定可执行文件路径。

输入与输出

见下方输入与输出表格。

项目内容
输入用户目标描述(自然语言)、起始URL、回合数限制、浏览器渠道/可执行路径、排除操作列表
输出任务结果文本、最终页面截图、URL访问记录、安全确认交互
适用人群需自动化网页任务的开发者、构建AI代理的技术团队、具备沙箱部署能力的用户
不包含Firefox/Safari支持、离线免密钥模式、GUI面板、多用户并发管理

 

风险提示

  • 模型可能执行未预期的浏览器操作,建议在隔离环境运行
  • 需妥善保管Gemini API密钥,避免泄露
  • 高权限操作(如支付、删除)会触发确认提示,但仍需人工审慎判断
  • 回合数限制可防止无限循环,但复杂任务可能因限制而中断

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/am-will/gemini-computer-use/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...