屏幕实时解说

3小时前更新 2 00
屏幕实时解说屏幕实时解说
屏幕实时解说

技能简介

Screen Narrator 是一款 macOS 屏幕活动实时解说工具,结合 Gemini 视觉模型与 ElevenLabs语音合成,将屏幕画面转化为七种风格的连续语音旁白。

能做什么

  • 实时捕获屏幕画面并生成场景描述
  • 以体育、自然、恐怖、黑色电影、真人秀、ASMR、摔跤七种风格进行语音解说
  • 支持双轨解说模式(画面描述 + 内心独白)
  • 通过 JSON 文件实现运行时热切换风格、暂停/恢复、调节用语强度
  • 在 tmux 后台会话中持续运行,不占用前台终端

使用说明

安装步骤

  1. 克隆仓库至本地目录:cd /Users/buddy/narrator
  2. 创建 Python 虚拟环境:python3 -m venv .venv
  3. 激活环境:source .venv/bin/activate
  4. 安装依赖:pip install -r requirements.txt
  5. 配置环境变量:GEMINI_API_KEYELEVENLABS_API_KEY(可选 ELEVENLABS_VOICE_ID

启动解说

在 tmux 后台会话中启动(推荐方式):

tmux new-session -d -s narrator "cd /Users/buddy/narrator && /Users/buddy/narrator/.venv/bin/python -m narrator sports --control-file /tmp/narrator-ctl.json --status-file /tmp/narrator-status.json"

限时运行示例(5分钟):

tmux new-session -d -s narrator "cd /Users/buddy/narrator && /Users/buddy/narrator/.venv/bin/python -m narrator wrestling --time 5m --control-file /tmp/narrator-ctl.json --status-file /tmp/narrator-status.json"

实时控制

切换风格:echo '{"command": "style", "value": "horror"}' > /tmp/narrator-ctl.json

调节用语强度:echo '{"command": "profanity", "value": "low"}' > /tmp/narrator-ctl.json

暂停/恢复:echo '{"command": "pause"}' > /tmp/narrator-ctl.json / echo '{"command": "resume"}' > /tmp/narrator-ctl.json

停止会话:tmux kill-session -t narrator

查看状态:cat /tmp/narrator-status.json

输入与输出

见下方输入与输出表格。

项目内容
输入macOS屏幕实时画面流;控制指令JSON文件;Gemini API密钥;ElevenLabs API密钥
输出实时语音解说音频流;状态反馈JSON文件;tmux会话日志
适用人群直播主播、内容创作者、无障碍开发者、需要屏幕监控语音反馈的用户
不包含Windows/Linux支持、离线视频处理、多语言自动切换、API密钥提供

 

风险提示

  • 仅支持 macOS 系统,依赖屏幕捕获与音频子系统
  • 需有效 API 密钥,调用产生第三方服务费用
  • 持续运行消耗计算资源与网络带宽
  • 屏幕内容可能包含敏感信息,需注意隐私保护
  • 语音合成内容直接外放,公共场合使用前请确认环境适宜

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/buddyh/narrator/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...