离线语音合成

22分钟前更新 1 00

本地CPU文本转语音

收录时间：

2026-02-26

手机查看

离线语音合成

技能简介

Pocket TTS 是基于 Kyutai 开源模型的纯本地文本转语音工具，无需网络连接即可生成高质量语音。支持8种预设人声与自定义声音克隆，在普通CPU上即可实现2-6倍实时速度的音频生成。

业务背景

在无网络环境下将英文文本实时转换为自然语音，支持个性化声音定制。适用于内部培训材料制作、自动化语音播报或产品原型演示等场景，普通办公电脑即可运行，避免依赖云端服务带来的延迟与数据外泄风险。

落地案例：培训师需为海外学员制作课程音频，使用该技能选择沉稳风格的预设人声，将英文讲稿批量转为WAV文件；针对品牌IP角色，还可上传专属WAV样本克隆特定音色，调整至1.2倍语速后嵌入课件使用。

能做什么

将任意英文文本转换为自然语音
从WAV样本克隆特定人物声音
调整语速（0.5-2.0倍）
启动本地HTTP服务供其他程序调用
导出标准WAV格式音频文件

使用说明

前置条件：需先在 Hugging Face 接受模型许可协议 https://huggingface.co/kyutai/pocket-tts

安装指令：

# 使用 pip 安装
pip install pocket-tts

# 或使用 uv 自动管理依赖
uvx pocket-tts generate "Hello world"

基础用法：

# 命令行快速生成
pocket-tts "Hello, I am your AI assistant"

# 指定声音与输出文件
pocket-tts "Hello" --voice alba --output hello.wav

# 使用自定义声音克隆
pocket-tts "Hello" --voice-file myvoice.wav --output output.wav

# 调整语速并启动服务
pocket-tts "Hello" --speed 1.2
pocket-tts --serve

Python 集成：

from pocket_tts import TTSModel
import scipy.io.wavfile

tts_model = TTSModel.load_model()
voice_state = tts_model.get_state_for_audio_prompt(
    "hf://kyutai/tts-voices/alba-mackenna/casual.wav"
)
audio = tts_model.generate_audio(voice_state, "Hello world!")
scipy.io.wavfile.write("output.wav", tts_model.sample_rate, audio.numpy())

输入与输出

见下方输入与输出表格。

项目	内容
输入	英文文本；可选：声音预设名（alba/marius等）、自定义WAV路径、语速0.5-2.0
输出	WAV音频文件或torch张量；HTTP服务模式返回JSON响应
适用人群	Python开发者、需要离线语音合成的产品团队、隐私敏感场景用户
不包含	多语言支持、GPU加速、商用声音授权、实时流式输出

风险提示

模型采用 gated 许可，未接受协议前无法下载使用
当前版本仅支持英文文本输入
首次运行需下载约100M参数量的模型文件
自定义声音克隆需准备清晰无噪声的WAV样本
音频输出为1D torch张量格式，需自行转换为WAV保存

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/sherajdev/pocket-tts/SKILL.md
来源类型：GitHub Skill Registry

数据统计

暂无评论

暂无评论...

离线语音合成

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

文本转语音

YouTube字幕提取

语音合成命令行工具

WhatsApp语音消息

对齐语音助手

Vapi语音助手管理

Groq语音合成

AI语音外呼助手

暂无评论

标签云