屏幕监控分析

1分钟前更新 1 00

双模式屏幕共享与视觉

收录时间:
2026-02-26
屏幕监控分析屏幕监控分析
屏幕监控分析

技能简介

screen-monitor 提供两种屏幕查看与交互方式:快速共享模式通过 WebRTC 实现即时画面传输,适合受限环境;完整控制模式借助浏览器扩展实现深度调试与 UI 操作。

业务背景

屏幕监控分析打通AI与现实业务系统的视觉通道。快速共享模式让远程专家即时查看一线员工操作界面指导排障;完整控制模式使AI能直接操作内部网页系统完成数据录入、报表下载等重复任务,减少人工切换成本。双模式设计兼顾灵活性与深度自动化需求。

落地案例:客服主管需要培训新人使用CRM系统:通过WebRTC门户实时观看其操作画面,口述指导字段填写规范。财务月末则需AI协助:浏览器扩展附加至网银标签页,由AI识别验证码位置并自动点击下载流水,截图存档供后续核对。两种场景共用一套视觉基础设施,按需选择轻量或深度交互。

能做什么

  • 生成本地 WebRTC 门户链接,无需安装即可共享屏幕
  • 捕获当前画面帧并进行视觉模型分析
  • 通过浏览器扩展精确截取指定标签页截图
  • 在已附加的标签页上执行点击、输入等自动化操作

使用说明

路径A:快速共享(WebRTC)

  1. 运行 bash command:"{baseDir}/references/get-share-url.sh" 获取共享链接
  2. 在浏览器中打开生成的本地门户 URL
  3. 运行 bash command:"{baseDir}/references/screen-analyze.sh" 分析当前画面

路径B:完整控制(浏览器扩展)

  1. 执行 clawdbot browser extension install 安装扩展
  2. 执行 clawdbot browser extension path 获取扩展路径
  3. 在 Chrome 中加载解压后的扩展程序
  4. 点击工具栏 Clawdbot 图标完成附加

安装前提:需具备 vision 能力的模型(Gemini/Claude/Qwen3-VL);路径B需要 Chrome 浏览器及开发者模式启用。

输入与输出

见下方输入与输出表格。

项目内容
输入屏幕共享授权、浏览器扩展安装、目标标签页附加、操作指令(click/snapshot)
输出WebRTC 门户URL、画面分析结果、精确截图文件、元素交互状态
适用人群技术支持人员、UI/UX设计师、前端开发者、无障碍辅助需求者
不包含跨设备控制、音频传输、移动端支持、录制回放功能

 

风险提示

  • WebRTC 模式仅在本地网络有效,公网访问需额外配置
  • 屏幕共享期间敏感信息可能暴露于视觉模型
  • 浏览器扩展需开启开发者模式,存在权限提升风险
  • 自动化点击操作可能误触重要按钮或提交表单

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/emasoudy/screen-monitor/SKILL.md
来源类型:GitHub 开源技能仓库

数据统计

相关导航

暂无评论

none
暂无评论...