Windows桌面控制

2小时前更新 1 00
Windows桌面控制Windows桌面控制
Windows桌面控制

技能简介

Windows Control 是一套完整的 Windows 桌面自动化工具,通过 Python 脚本模拟人类操作方式,实现对鼠标、键盘、窗口及 UI 元素的全面控制。无需依赖 OCR,直接调用 Windows UI Automation 接口读取界面文本与元素信息。

能做什么

  • 捕获屏幕截图并返回 base64 编码的 PNG 图像
  • 控制鼠标移动、点击(左/右/双击)、拖拽与滚轮操作
  • 模拟键盘输入文字与组合快捷键
  • 管理窗口:聚焦、最小化、最大化、关闭、获取活动窗口标题
  • 读取任意窗口内的文本内容(非 OCR,速度更快)
  • 提取 UI 元素列表:按钮、链接、复选框、下拉菜单及其坐标
  • 按名称点击元素,无需预先知道具体坐标
  • 处理各类对话框:保存、打开、确认、提示框的读取与交互
  • 等待特定文本或窗口出现,实现稳健的自动化流程

使用说明

安装准备

  1. 确保系统已安装 Python 3.x
  2. 克隆仓库:git clone https://github.com/openclaw/skills.git
  3. 进入脚本目录:cd skills/skills/spliff7777/windows-control/scripts/
  4. 安装依赖(如需 OCR 功能):pip install pyautogui pywinauto pytesseract pillow

基础用法示例

截图:

py screenshot.py > output.b64

点击指定坐标:

py click.py 500 300
py click.py 500 300 right
py click.py 500 300 left 2

输入文字:

py type_text.py "Hello World"

按键操作:

py key_press.py "ctrl+s"
py key_press.py "alt+tab"

窗口管理

py focus_window.py "Chrome"
py minimize_window.py "Notepad"
py get_active_window.py

智能点击(无需坐标):

py click_text.py "Save"
py click_element.py "OK" --window "Notepad"

读取窗口内容:

py read_window.py "Chrome"
py read_ui_elements.py "Chrome" --buttons-only

处理对话框:

py handle_dialog.py list
py handle_dialog.py click "OK"
py handle_dialog.py dismiss

输入与输出

见下方输入与输出表格。

项目内容
输入窗口标题、坐标 (x,y)、点击类型、文本内容、按键组合、滚动参数、超时时间、元素名称/类型
输出base64 截图、窗口文本、UI 元素列表(含坐标)、活动窗口标题、元素坐标、对话框内容、执行状态
适用人群Windows 自动化测试人员、RPA 开发者、技术支持、需桌面远程控制的运维人员
不包含跨平台支持(macOS/Linux)、移动设备控制、纯后台无干扰操作、内置 OCR 引擎、网络 API 功能

 

风险提示

  • 该技能拥有完整桌面控制权,可执行任意鼠标键盘操作,存在误操作或恶意利用风险
  • 在自动化运行期间避免人工干预,防止操作冲突导致意外结果
  • 涉及敏感信息的窗口读取需谨慎,防止数据泄露
  • 部分杀毒软件可能将自动化脚本标记为可疑行为,建议添加信任规则
  • OCR 功能依赖 Tesseract,未安装时相关命令将报错

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/spliff7777/windows-control/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...