语音合成服务

4小时前更新 1 00

基于Qwen3的高质

收录时间：

2026-02-26

手机查看

语音合成服务

技能简介

Chichi Speech 是一个基于 FastAPI 的 RESTful 服务，使用 Qwen3 模型实现高质量文本转语音（TTS）。该服务针对特定声音提示词复用进行了优化，避免重复计算，提升语音克隆的效率和一致性。

能做什么

将文本转换为自然流畅的语音输出
基于参考音频进行声音克隆，保持音色一致
通过预计算的声音提示词加速生成过程
提供标准的 HTTP API 接口供外部调用

使用说明

1. 安装依赖

# 环境要求：Python >= 3.10
pip install -e .

2. 启动服务

# 默认运行在 9090 端口
chichi-speech --port 9090 --host 127.0.0.1 \
  --ref-audio "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone_2.wav" \
  --ref-text "Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you."

可替换为自定义参考音频和文本。

3. 验证服务状态

curl http://localhost:9090/docs

4. 生成语音

curl -X POST "http://localhost:9090/synthesize" \
     -H "Content-Type: application/json" \
     -d '{"text": "Nice to meet you", "language": "English"}' \
     --output output/nice_to_meet.wav

输入与输出

见下方输入与输出表格。

项目	内容
输入	文本字符串、语言标识（如 English/Chinese）、可选的参考音频URL及对应文本
输出	WAV格式音频文件流，HTTP 200 成功响应
适用人群	Python开发者、后端工程师、需要集成TTS能力的AI应用开发者
不包含	Web管理界面、预置商用声音角色、音频剪辑工具、GPU自动调度管理

风险提示

使用第三方参考音频需注意版权合规问题
服务默认绑定 127.0.0.1，如需外网访问请修改 host 配置并评估安全风险
生成的语音内容需符合当地法律法规
依赖 qwen-tts 库，需确保网络可访问相关模型资源

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/hudeven/chichi-speech/SKILL.md
来源类型：GitHub 开源项目

数据统计

暂无评论

暂无评论...

语音合成服务

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

OpenAI语音转写

YouTube字幕获取

性能分析器

Dialpad短信通话

离线语音合成

Clawdbot语音集成

智能电话呼叫

YouTube视频转录助手

暂无评论

标签云