Qwen本地语音合成

4小时前更新 1 00
Qwen本地语音合成Qwen本地语音合成
Qwen本地语音合成

技能简介

基于阿里通义千问Qwen3-TTS-12Hz-1.7B-CustomVoice模型的本地文本转语音工具,无需联网即可生成自然语音,支持10种语言和9种预设音色。

能做什么

  • 将文字转换为WAV格式音频文件
  • 通过指令控制语音的情感、语调和风格
  • 切换不同性别、年龄、地域特色的发音人
  • 作为云端TTS服务的离线替代方案

使用说明

首次安装(仅需一次):

cd skills/public/qwen-tts
bash scripts/setup.sh

该命令创建Python虚拟环境并安装依赖包(约500MB)。首次运行时自动从Hugging Face下载1.7GB模型文件。

基础用法:

scripts/tts.py "要朗读的文字" -o 输出.wav

指定语言和发音人:

scripts/tts.py "Ciao, come va?" -l Italian -s Ryan -o output.wav

添加情感指令:

scripts/tts.py "Sono felice!" -i "Parla con entusiasmo" -l Italian -o happy.wav

查看可用发音人:

scripts/tts.py --list-speakers

输入与输出

见下方输入与输出表格。

项目内容
输入文本字符串;可选参数:语言(-l)、发音人(-s)、风格指令(-i)、输出路径(-o)
输出WAV格式音频文件(16kHz采样率,无压缩),文件路径输出至stdout末行
适用人群开发者、内容创作者、隐私敏感用户、需要离线TTS的运维人员
不包含实时流式输出、压缩格式、音色克隆训练、云端服务

 

风险提示

  • 首次模型下载约1.7GB,需确保磁盘空间和网络稳定
  • GPU内存不足时自动降级至CPU,合成速度显著下降
  • 非母语发音人跨语言合成效果可能不理想
  • 模型许可证条款请查阅Hugging Face模型卡

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/paki81/qwen-tts/SKILL.md
来源类型:开源社区技能

数据统计

相关导航

暂无评论

none
暂无评论...