Gemini浏览器自动化

20分钟前更新 1 00

基于Gemini 2

收录时间：

2026-02-26

Gemini浏览器自动化

该技能通过Gemini 2.5 Computer Use模型驱动Playwright浏览器，实现网页任务的自动化执行。采用截图→函数调用→操作→响应的循环机制，让模型能够观察页面状态并决定下一步交互动作。

该工具让非技术人员用自然语言描述即可自动操作网页，适用于跨系统数据录入、信息检索等重复性浏览器任务。沙箱运行环境与人工确认机制平衡了效率与风控，支持主流浏览器渠道，便于适配企业现有IT环境，减少手工操作错误与时间成本。

落地案例：运营团队每日需从三个供应商后台抓取库存数据并汇总。配置Gemini浏览器自动化后，员工输入目标"登录A网站导出昨日库存报表，再登录B网站对比差异"，设置6步回合限制和Chrome渠道。系统自动截图识别页面元素，遇到登录态异常时暂停请求人工介入，最终输出汇总结果与操作轨迹记录。

配置环境变量
复制示例文件并编辑API密钥：
cp env.example env.sh $EDITOR env.sh source env.sh
安装依赖
创建虚拟环境并安装所需包：
python -m venv .venv source .venv/bin/activate pip install google-genai playwright playwright install chromium
运行任务
执行代理脚本并传入提示词：
python scripts/computer_use_agent.py --prompt "查找example.com最新博客标题" --start-url "https://example.com" --turn-limit 6

可选参数：使用--exclude屏蔽特定操作类型；通过环境变量切换浏览器渠道或指定可执行文件路径。

见下方输入与输出表格。

项目	内容
输入	用户目标描述（自然语言）、起始URL、回合数限制、浏览器渠道/可执行路径、排除操作列表
输出	任务结果文本、最终页面截图、URL访问记录、安全确认交互
适用人群	需自动化网页任务的开发者、构建AI代理的技术团队、具备沙箱部署能力的用户
不包含	Firefox/Safari支持、离线免密钥模式、GUI面板、多用户并发管理

原始链接：https://github.com/openclaw/skills/tree/main/skills/am-will/gemini-computer-use/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论...