AI语言私教
任意语言学习辅导
screen-monitor 提供两种屏幕查看与交互方式:快速共享模式通过 WebRTC 实现即时画面传输,适合受限环境;完整控制模式借助浏览器扩展实现深度调试与 UI 操作。
屏幕监控分析打通AI与现实业务系统的视觉通道。快速共享模式让远程专家即时查看一线员工操作界面指导排障;完整控制模式使AI能直接操作内部网页系统完成数据录入、报表下载等重复任务,减少人工切换成本。双模式设计兼顾灵活性与深度自动化需求。
落地案例:客服主管需要培训新人使用CRM系统:通过WebRTC门户实时观看其操作画面,口述指导字段填写规范。财务月末则需AI协助:浏览器扩展附加至网银标签页,由AI识别验证码位置并自动点击下载流水,截图存档供后续核对。两种场景共用一套视觉基础设施,按需选择轻量或深度交互。
路径A:快速共享(WebRTC)
bash command:"{baseDir}/references/get-share-url.sh" 获取共享链接bash command:"{baseDir}/references/screen-analyze.sh" 分析当前画面路径B:完整控制(浏览器扩展)
clawdbot browser extension install 安装扩展clawdbot browser extension path 获取扩展路径安装前提:需具备 vision 能力的模型(Gemini/Claude/Qwen3-VL);路径B需要 Chrome 浏览器及开发者模式启用。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 屏幕共享授权、浏览器扩展安装、目标标签页附加、操作指令(click/snapshot) |
| 输出 | WebRTC 门户URL、画面分析结果、精确截图文件、元素交互状态 |
| 适用人群 | 技术支持人员、UI/UX设计师、前端开发者、无障碍辅助需求者 |
| 不包含 | 跨设备控制、音频传输、移动端支持、录制回放功能 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/emasoudy/screen-monitor/SKILL.md
来源类型:GitHub 开源技能仓库