百度搜索技能
调用百度AI搜索AP
Windows Control 是一套完整的 Windows 桌面自动化工具,通过 Python 脚本模拟人类操作方式,实现对鼠标、键盘、窗口及 UI 元素的全面控制。无需依赖 OCR,直接调用 Windows UI Automation 接口读取界面文本与元素信息。
安装准备
git clone https://github.com/openclaw/skills.gitcd skills/skills/spliff7777/windows-control/scripts/pip install pyautogui pywinauto pytesseract pillow基础用法示例
截图:
py screenshot.py > output.b64
点击指定坐标:
py click.py 500 300
py click.py 500 300 right
py click.py 500 300 left 2
输入文字:
py type_text.py "Hello World"
按键操作:
py key_press.py "ctrl+s"
py key_press.py "alt+tab"
窗口管理:
py focus_window.py "Chrome"
py minimize_window.py "Notepad"
py get_active_window.py
智能点击(无需坐标):
py click_text.py "Save"
py click_element.py "OK" --window "Notepad"
读取窗口内容:
py read_window.py "Chrome"
py read_ui_elements.py "Chrome" --buttons-only
处理对话框:
py handle_dialog.py list
py handle_dialog.py click "OK"
py handle_dialog.py dismiss
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 窗口标题、坐标 (x,y)、点击类型、文本内容、按键组合、滚动参数、超时时间、元素名称/类型 |
| 输出 | base64 截图、窗口文本、UI 元素列表(含坐标)、活动窗口标题、元素坐标、对话框内容、执行状态 |
| 适用人群 | Windows 自动化测试人员、RPA 开发者、技术支持、需桌面远程控制的运维人员 |
| 不包含 | 跨平台支持(macOS/Linux)、移动设备控制、纯后台无干扰操作、内置 OCR 引擎、网络 API 功能 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/spliff7777/windows-control/SKILL.md
来源类型:GitHub 开源仓库