离线语音合成

22分钟前更新 1 00
离线语音合成离线语音合成
离线语音合成

技能简介

Pocket TTS 是基于 Kyutai 开源模型的纯本地文本转语音工具,无需网络连接即可生成高质量语音。支持8种预设人声与自定义声音克隆,在普通CPU上即可实现2-6倍实时速度的音频生成。

业务背景

在无网络环境下将英文文本实时转换为自然语音,支持个性化声音定制。适用于内部培训材料制作、自动化语音播报或产品原型演示等场景,普通办公电脑即可运行,避免依赖云端服务带来的延迟与数据外泄风险。

落地案例:培训师需为海外学员制作课程音频,使用该技能选择沉稳风格的预设人声,将英文讲稿批量转为WAV文件;针对品牌IP角色,还可上传专属WAV样本克隆特定音色,调整至1.2倍语速后嵌入课件使用。

能做什么

  • 将任意英文文本转换为自然语音
  • 从WAV样本克隆特定人物声音
  • 调整语速(0.5-2.0倍)
  • 启动本地HTTP服务供其他程序调用
  • 导出标准WAV格式音频文件

使用说明

前置条件:需先在 Hugging Face 接受模型许可协议 https://huggingface.co/kyutai/pocket-tts

安装指令:

# 使用 pip 安装
pip install pocket-tts

# 或使用 uv 自动管理依赖
uvx pocket-tts generate "Hello world"

基础用法:

# 命令行快速生成
pocket-tts "Hello, I am your AI assistant"

# 指定声音与输出文件
pocket-tts "Hello" --voice alba --output hello.wav

# 使用自定义声音克隆
pocket-tts "Hello" --voice-file myvoice.wav --output output.wav

# 调整语速并启动服务
pocket-tts "Hello" --speed 1.2
pocket-tts --serve

Python 集成:

from pocket_tts import TTSModel
import scipy.io.wavfile

tts_model = TTSModel.load_model()
voice_state = tts_model.get_state_for_audio_prompt(
    "hf://kyutai/tts-voices/alba-mackenna/casual.wav"
)
audio = tts_model.generate_audio(voice_state, "Hello world!")
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())

输入与输出

见下方输入与输出表格。

项目内容
输入英文文本;可选:声音预设名(alba/marius等)、自定义WAV路径、语速0.5-2.0
输出WAV音频文件或torch张量;HTTP服务模式返回JSON响应
适用人群Python开发者、需要离线语音合成的产品团队、隐私敏感场景用户
不包含多语言支持、GPU加速、商用声音授权、实时流式输出

 

风险提示

  • 模型采用 gated 许可,未接受协议前无法下载使用
  • 当前版本仅支持英文文本输入
  • 首次运行需下载约100M参数量的模型文件
  • 自定义声音克隆需准备清晰无噪声的WAV样本
  • 音频输出为1D torch张量格式,需自行转换为WAV保存

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/sherajdev/pocket-tts/SKILL.md
来源类型:GitHub Skill Registry

数据统计

相关导航

暂无评论

none
暂无评论...