本地语音服务
Mac端STT/TT
基于ElevenLabs API的高质量语音合成工具包,提供18种预设人声角色、32种语言支持、实时流式输出、音效生成及自定义声音设计功能。
该工具包提供18种预设人声与32种语言覆盖,满足企业多角色、跨区域的语音内容需求。实时流式输出适合交互场景,音效生成功能可丰富多媒体素材,批量处理能力提升内容运营效率,配合成本监控实现预算可控。
落地案例:一家在线教育平台需要为课程视频配备不同风格的讲解声音。课程制作团队使用工具包指定'温暖亲和'预设人声生成导学语音,切换'专业沉稳'风格录制知识要点,同时为动画片段输入文本描述生成配套音效,最终批量导出MP3文件嵌入课件系统。
安装准备:
export ELEVEN_API_KEY="your-api-key"(或 ELEVENLABS_API_KEY)首次配置:
python3 scripts/setup.py
按向导完成:API Key录入 → 默认声音选择 → 语言偏好 → 音质设置 → 成本监控启用 → 预算上限(可选)。配置存储于本地 config.json,已自动排除在版本控制外。
基础用法:
# 列出所有可用声音
python3 scripts/tts.py --list
# 生成语音
python3 scripts/tts.py --text "Hello world" --voice rachel --output hello.mp3
# 使用预设角色
python3 scripts/tts.py --text "Breaking news..." --voice broadcaster --output news.mp3
# 德语合成示例
python3 scripts/tts.py --text "Guten Tag!" --voice rachel --lang de
# 查看使用统计
python3 scripts/tts.py --stats
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 文本字符串;声音角色标识(18种预设或自定义);语言代码(32种可选);输出文件路径;API密钥(环境变量配置) |
| 输出 | MP3音频文件;使用统计与成本估算;支持语言清单 |
| 适用人群 | 视频创作者、播客制作人、本地化工程师、教育培训开发者、游戏音频设计师 |
| 不包含 | 视频生成、实时语音变换、离线合成能力、免费无限调用 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/robbyczgw-cla/elevenlabs-voices/SKILL.md
来源类型:GitHub仓库