屏幕实时解说

3小时前更新 2 00

macOS屏幕活动A

收录时间：

2026-02-26

手机查看

屏幕实时解说

技能简介

Screen Narrator 是一款 macOS 屏幕活动实时解说工具，结合 Gemini 视觉模型与 ElevenLabs 语音合成，将屏幕画面转化为七种风格的连续语音旁白。

能做什么

实时捕获屏幕画面并生成场景描述
以体育、自然、恐怖、黑色电影、真人秀、ASMR、摔跤七种风格进行语音解说
支持双轨解说模式（画面描述 + 内心独白）
通过 JSON 文件实现运行时热切换风格、暂停/恢复、调节用语强度
在 tmux 后台会话中持续运行，不占用前台终端

使用说明

安装步骤

克隆仓库至本地目录：cd /Users/buddy/narrator
创建 Python 虚拟环境：python3 -m venv .venv
激活环境：source .venv/bin/activate
安装依赖：pip install -r requirements.txt
配置环境变量：GEMINI_API_KEY 和 ELEVENLABS_API_KEY（可选 ELEVENLABS_VOICE_ID）

启动解说

在 tmux 后台会话中启动（推荐方式）：

tmux new-session -d -s narrator "cd /Users/buddy/narrator && /Users/buddy/narrator/.venv/bin/python -m narrator sports --control-file /tmp/narrator-ctl.json --status-file /tmp/narrator-status.json"

限时运行示例（5分钟）：

tmux new-session -d -s narrator "cd /Users/buddy/narrator && /Users/buddy/narrator/.venv/bin/python -m narrator wrestling --time 5m --control-file /tmp/narrator-ctl.json --status-file /tmp/narrator-status.json"

实时控制

切换风格：echo '{"command": "style", "value": "horror"}' > /tmp/narrator-ctl.json

调节用语强度：echo '{"command": "profanity", "value": "low"}' > /tmp/narrator-ctl.json

暂停/恢复：echo '{"command": "pause"}' > /tmp/narrator-ctl.json / echo '{"command": "resume"}' > /tmp/narrator-ctl.json

停止会话：tmux kill-session -t narrator

查看状态：cat /tmp/narrator-status.json

输入与输出

见下方输入与输出表格。

项目	内容
输入	macOS屏幕实时画面流；控制指令JSON文件；Gemini API密钥；ElevenLabs API密钥
输出	实时语音解说音频流；状态反馈JSON文件；tmux会话日志
适用人群	直播主播、内容创作者、无障碍开发者、需要屏幕监控语音反馈的用户
不包含	Windows/Linux支持、离线视频处理、多语言自动切换、API密钥提供

风险提示

仅支持 macOS 系统，依赖屏幕捕获与音频子系统
需有效 API 密钥，调用产生第三方服务费用
持续运行消耗计算资源与网络带宽
屏幕内容可能包含敏感信息，需注意隐私保护
语音合成内容直接外放，公共场合使用前请确认环境适宜

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/buddyh/narrator/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

屏幕实时解说

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

动画代码指南

Gamma智能演示

智能图像加载器

Clawdbot语音桥接

终端录屏制作

音频频谱可视化

语音回复

图像转提示词

暂无评论

标签云