屏幕监控分析

1分钟前更新 1 00

双模式屏幕共享与视觉

收录时间：

2026-02-26

手机查看

大模型工具 # UI自动化 # 屏幕共享

屏幕监控分析

技能简介

screen-monitor 提供两种屏幕查看与交互方式：快速共享模式通过 WebRTC 实现即时画面传输，适合受限环境；完整控制模式借助浏览器扩展实现深度调试与 UI 操作。

业务背景

屏幕监控分析打通AI与现实业务系统的视觉通道。快速共享模式让远程专家即时查看一线员工操作界面指导排障；完整控制模式使AI能直接操作内部网页系统完成数据录入、报表下载等重复任务，减少人工切换成本。双模式设计兼顾灵活性与深度自动化需求。

落地案例：客服主管需要培训新人使用CRM系统：通过WebRTC门户实时观看其操作画面，口述指导字段填写规范。财务月末则需AI协助：浏览器扩展附加至网银标签页，由AI识别验证码位置并自动点击下载流水，截图存档供后续核对。两种场景共用一套视觉基础设施，按需选择轻量或深度交互。

能做什么

生成本地 WebRTC 门户链接，无需安装即可共享屏幕
捕获当前画面帧并进行视觉模型分析
通过浏览器扩展精确截取指定标签页截图
在已附加的标签页上执行点击、输入等自动化操作

使用说明

路径A：快速共享（WebRTC）

运行 bash command:"{baseDir}/references/get-share-url.sh" 获取共享链接
在浏览器中打开生成的本地门户 URL
运行 bash command:"{baseDir}/references/screen-analyze.sh" 分析当前画面

路径B：完整控制（浏览器扩展）

执行 clawdbot browser extension install 安装扩展
执行 clawdbot browser extension path 获取扩展路径
在 Chrome 中加载解压后的扩展程序
点击工具栏 Clawdbot 图标完成附加

安装前提：需具备 vision 能力的模型（Gemini/Claude/Qwen3-VL）；路径B需要 Chrome 浏览器及开发者模式启用。

输入与输出

见下方输入与输出表格。

项目	内容
输入	屏幕共享授权、浏览器扩展安装、目标标签页附加、操作指令（click/snapshot）
输出	WebRTC 门户URL、画面分析结果、精确截图文件、元素交互状态
适用人群	技术支持人员、UI/UX设计师、前端开发者、无障碍辅助需求者
不包含	跨设备控制、音频传输、移动端支持、录制回放功能

风险提示

WebRTC 模式仅在本地网络有效，公网访问需额外配置
屏幕共享期间敏感信息可能暴露于视觉模型
浏览器扩展需开启开发者模式，存在权限提升风险
自动化点击操作可能误触重要按钮或提交表单

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/emasoudy/screen-monitor/SKILL.md
来源类型：GitHub 开源技能仓库

数据统计

暂无评论

暂无评论...

屏幕监控分析

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

AI语言私教

智能电话呼叫

去中心化代理经济

智能体编排

3D虚拟交易空间

AI图像分享平台

智能记忆压缩

Doubleword批处理推理

暂无评论

标签云