语音合成服务

4小时前更新 1 00
语音合成服务语音合成服务
语音合成服务

技能简介

Chichi Speech 是一个基于 FastAPI 的 RESTful 服务,使用 Qwen3 模型实现高质量文本转语音(TTS)。该服务针对特定声音提示词复用进行了优化,避免重复计算,提升语音克隆的效率和一致性。

能做什么

  • 将文本转换为自然流畅的语音输出
  • 基于参考音频进行声音克隆,保持音色一致
  • 通过预计算的声音提示词加速生成过程
  • 提供标准的 HTTP API 接口供外部调用

使用说明

1. 安装依赖

# 环境要求:Python >= 3.10
pip install -e .

2. 启动服务

# 默认运行在 9090 端口
chichi-speech --port 9090 --host 127.0.0.1 \
  --ref-audio "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone_2.wav" \
  --ref-text "Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you."

可替换为自定义参考音频和文本。

3. 验证服务状态

curl http://localhost:9090/docs

4. 生成语音

curl -X POST "http://localhost:9090/synthesize" \
     -H "Content-Type: application/json" \
     -d '{"text": "Nice to meet you", "language": "English"}' \
     --output output/nice_to_meet.wav

输入与输出

见下方输入与输出表格。

项目内容
输入文本字符串、语言标识(如 English/Chinese)、可选的参考音频URL及对应文本
输出WAV格式音频文件流,HTTP 200 成功响应
适用人群Python开发者、后端工程师、需要集成TTS能力的AI应用开发者
不包含Web管理界面、预置商用声音角色、音频剪辑工具、GPU自动调度管理

 

风险提示

  • 使用第三方参考音频需注意版权合规问题
  • 服务默认绑定 127.0.0.1,如需外网访问请修改 host 配置并评估安全风险
  • 生成的语音内容需符合当地法律法规
  • 依赖 qwen-tts 库,需确保网络可访问相关模型资源

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/hudeven/chichi-speech/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...