界面设计
界面设计

Windows Control 是一套完整的 Windows 桌面自动化工具,通过 Python 脚本模拟人类操作方式,实现对鼠标、键盘、窗口及 UI 元素的全面控制。
Windows桌面控制技能让重复性电脑操作实现自动化,如批量数据录入、报表生成、跨系统信息搬运等。无需人工逐一点击,机器人可模拟真人操作鼠标键盘,直接读取窗口文本和界面元素,大幅提升办公效率,减少人为差错,释放员工精力处理更高价值工作。
落地案例:财务部门每月需从多个内部系统导出数据并汇总至固定格式的Excel报告。传统方式需人工切换窗口、复制粘贴数十次,耗时易错。部署该技能后,机器人自动登录各系统、抓取指定窗口数据、按规则填入模板,全程无需人工干预,财务人员仅需最终审核即可。
安装准备
git clone https://github.com/openclaw/skills.gitcd skills/skills/spliff7777/windows-control/scripts/pip install pyautogui pywinauto pytesseract pillow基础用法示例
截图:
py screenshot.py > output.b64
点击指定坐标:
py click.py 500 300
py click.py 500 300 right
py click.py 500 300 left 2
输入文字:
py type_text.py "Hello World"
按键操作:
py key_press.py "ctrl+s"
py key_press.py "alt+tab"
窗口管理:
py focus_window.py "Chrome"
py minimize_window.py "Notepad"
py get_active_window.py
智能点击(无需坐标):
py click_text.py "Save"
py click_element.py "OK" --window "Notepad"
读取窗口内容:
py read_window.py "Chrome"
py read_ui_elements.py "Chrome" --buttons-only
处理对话框:
py handle_dialog.py list
py handle_dialog.py click "OK"
py handle_dialog.py dismiss
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 窗口标题、坐标 (x,y)、点击类型、文本内容、按键组合、滚动参数、超时时间、元素名称/类型 |
| 输出 | base64 截图、窗口文本、UI 元素列表(含坐标)、活动窗口标题、元素坐标、对话框内容、执行状态 |
| 适用人群 | Windows 自动化测试人员、RPA 开发者、技术支持、需桌面远程控制的运维人员 |
| 不包含 | 跨平台支持(macOS/Linux)、移动设备控制、纯后台无干扰操作、内置 OCR 引擎、网络 API 功能 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/spliff7777/windows-control/SKILL.md
来源类型:GitHub 开源仓库
Q1:Windows桌面控制 适合哪些场景?
A:适合需要「Windows Control 是一套完整的 Windows 桌面自动化」的场景,尤其是希望快速验证并落地的团队与个人。
Q2:第一次使用应该先做什么?
A:先明确目标任务,再按照页面中的“能做什么”和“使用说明”完成最小可行流程。
Q3:如何判断是否值得长期使用?
A:建议连续使用 1-2 周,对比效率、稳定性和协作成本,再决定是否纳入长期工具栈。