Windows桌面控制

2小时前更新 1 00

自动化操控Windo

收录时间：

2026-02-26

手机查看

Windows桌面控制

技能简介

Windows Control 是一套完整的 Windows 桌面自动化工具，通过 Python 脚本模拟人类操作方式，实现对鼠标、键盘、窗口及 UI 元素的全面控制。无需依赖 OCR，直接调用 Windows UI Automation 接口读取界面文本与元素信息。

能做什么

捕获屏幕截图并返回 base64 编码的 PNG 图像
控制鼠标移动、点击（左/右/双击）、拖拽与滚轮操作
模拟键盘输入文字与组合快捷键
管理窗口：聚焦、最小化、最大化、关闭、获取活动窗口标题
读取任意窗口内的文本内容（非 OCR，速度更快）
提取 UI 元素列表：按钮、链接、复选框、下拉菜单及其坐标
按名称点击元素，无需预先知道具体坐标
处理各类对话框：保存、打开、确认、提示框的读取与交互
等待特定文本或窗口出现，实现稳健的自动化流程

使用说明

安装准备

确保系统已安装 Python 3.x
克隆仓库：git clone https://github.com/openclaw/skills.git
进入脚本目录：cd skills/skills/spliff7777/windows-control/scripts/
安装依赖（如需 OCR 功能）：pip install pyautogui pywinauto pytesseract pillow

基础用法示例

截图：

py screenshot.py > output.b64

点击指定坐标：

py click.py 500 300
py click.py 500 300 right
py click.py 500 300 left 2

输入文字：

py type_text.py "Hello World"

按键操作：

py key_press.py "ctrl+s"
py key_press.py "alt+tab"

窗口管理：

py focus_window.py "Chrome"
py minimize_window.py "Notepad"
py get_active_window.py

智能点击（无需坐标）：

py click_text.py "Save"
py click_element.py "OK" --window "Notepad"

读取窗口内容：

py read_window.py "Chrome"
py read_ui_elements.py "Chrome" --buttons-only

处理对话框：

py handle_dialog.py list
py handle_dialog.py click "OK"
py handle_dialog.py dismiss

输入与输出

见下方输入与输出表格。

项目	内容
输入	窗口标题、坐标 (x,y)、点击类型、文本内容、按键组合、滚动参数、超时时间、元素名称/类型
输出	base64 截图、窗口文本、UI 元素列表（含坐标）、活动窗口标题、元素坐标、对话框内容、执行状态
适用人群	Windows 自动化测试人员、RPA 开发者、技术支持、需桌面远程控制的运维人员
不包含	跨平台支持（macOS/Linux）、移动设备控制、纯后台无干扰操作、内置 OCR 引擎、网络 API 功能

风险提示

该技能拥有完整桌面控制权，可执行任意鼠标键盘操作，存在误操作或恶意利用风险
在自动化运行期间避免人工干预，防止操作冲突导致意外结果
涉及敏感信息的窗口读取需谨慎，防止数据泄露
部分杀毒软件可能将自动化脚本标记为可疑行为，建议添加信任规则
OCR 功能依赖 Tesseract，未安装时相关命令将报错

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/spliff7777/windows-control/SKILL.md
来源类型：GitHub 开源仓库

数据统计

暂无评论

暂无评论...

Windows桌面控制

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

百度搜索技能

文件守护卫士

SwiftUI视图重构

Niri窗口管理控制

TuriX桌面自动化

安卓设备控制

arXiv论文评论

Gemini浏览器自动化

暂无评论

标签云