OpenAI语音转写
调用Whisper
Chichi Speech 是一个基于 FastAPI 的 RESTful 服务,使用 Qwen3 模型实现高质量文本转语音(TTS)。该服务针对特定声音提示词复用进行了优化,避免重复计算,提升语音克隆的效率和一致性。
1. 安装依赖
# 环境要求:Python >= 3.10
pip install -e .
2. 启动服务
# 默认运行在 9090 端口
chichi-speech --port 9090 --host 127.0.0.1 \
--ref-audio "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone_2.wav" \
--ref-text "Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you."
可替换为自定义参考音频和文本。
3. 验证服务状态
curl http://localhost:9090/docs
4. 生成语音
curl -X POST "http://localhost:9090/synthesize" \
-H "Content-Type: application/json" \
-d '{"text": "Nice to meet you", "language": "English"}' \
--output output/nice_to_meet.wav
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 文本字符串、语言标识(如 English/Chinese)、可选的参考音频URL及对应文本 |
| 输出 | WAV格式音频文件流,HTTP 200 成功响应 |
| 适用人群 | Python开发者、后端工程师、需要集成TTS能力的AI应用开发者 |
| 不包含 | Web管理界面、预置商用声音角色、音频剪辑工具、GPU自动调度管理 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/hudeven/chichi-speech/SKILL.md
来源类型:GitHub 开源项目