ElevenLabs语音合成
AI语音生成与转录工
基于阿里通义千问Qwen3-TTS-12Hz-1.7B-CustomVoice模型的本地文本转语音工具,无需联网即可生成自然语音,支持10种语言和9种预设音色。
首次安装(仅需一次):
cd skills/public/qwen-tts
bash scripts/setup.sh
该命令创建Python虚拟环境并安装依赖包(约500MB)。首次运行时自动从Hugging Face下载1.7GB模型文件。
基础用法:
scripts/tts.py "要朗读的文字" -o 输出.wav
指定语言和发音人:
scripts/tts.py "Ciao, come va?" -l Italian -s Ryan -o output.wav
添加情感指令:
scripts/tts.py "Sono felice!" -i "Parla con entusiasmo" -l Italian -o happy.wav
查看可用发音人:
scripts/tts.py --list-speakers
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 文本字符串;可选参数:语言(-l)、发音人(-s)、风格指令(-i)、输出路径(-o) |
| 输出 | WAV格式音频文件(16kHz采样率,无压缩),文件路径输出至stdout末行 |
| 适用人群 | 开发者、内容创作者、隐私敏感用户、需要离线TTS的运维人员 |
| 不包含 | 实时流式输出、压缩格式、音色克隆训练、云端服务 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/paki81/qwen-tts/SKILL.md
来源类型:开源社区技能