文本转语音
调用AI接口生成音频
Pocket TTS 是基于 Kyutai 开源模型的纯本地文本转语音工具,无需网络连接即可生成高质量语音。支持8种预设人声与自定义声音克隆,在普通CPU上即可实现2-6倍实时速度的音频生成。
在无网络环境下将英文文本实时转换为自然语音,支持个性化声音定制。适用于内部培训材料制作、自动化语音播报或产品原型演示等场景,普通办公电脑即可运行,避免依赖云端服务带来的延迟与数据外泄风险。
落地案例:培训师需为海外学员制作课程音频,使用该技能选择沉稳风格的预设人声,将英文讲稿批量转为WAV文件;针对品牌IP角色,还可上传专属WAV样本克隆特定音色,调整至1.2倍语速后嵌入课件使用。
前置条件:需先在 Hugging Face 接受模型许可协议 https://huggingface.co/kyutai/pocket-tts
安装指令:
# 使用 pip 安装
pip install pocket-tts
# 或使用 uv 自动管理依赖
uvx pocket-tts generate "Hello world"
基础用法:
# 命令行快速生成
pocket-tts "Hello, I am your AI assistant"
# 指定声音与输出文件
pocket-tts "Hello" --voice alba --output hello.wav
# 使用自定义声音克隆
pocket-tts "Hello" --voice-file myvoice.wav --output output.wav
# 调整语速并启动服务
pocket-tts "Hello" --speed 1.2
pocket-tts --serve
Python 集成:
from pocket_tts import TTSModel
import scipy.io.wavfile
tts_model = TTSModel.load_model()
voice_state = tts_model.get_state_for_audio_prompt(
"hf://kyutai/tts-voices/alba-mackenna/casual.wav"
)
audio = tts_model.generate_audio(voice_state, "Hello world!")
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 英文文本;可选:声音预设名(alba/marius等)、自定义WAV路径、语速0.5-2.0 |
| 输出 | WAV音频文件或torch张量;HTTP服务模式返回JSON响应 |
| 适用人群 | Python开发者、需要离线语音合成的产品团队、隐私敏感场景用户 |
| 不包含 | 多语言支持、GPU加速、商用声音授权、实时流式输出 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/sherajdev/pocket-tts/SKILL.md
来源类型:GitHub Skill Registry