豆包语音合成

4小时前更新 1 00

火山引擎TTS服务，

收录时间：

2026-02-26

手机查看

豆包语音合成

技能简介

基于豆包（火山引擎）API的文本转语音服务，提供200余种自然音色选择，支持命令行与Python API两种调用方式。

业务背景

豆包语音合成将文字内容快速转化为自然语音，适用于客服播报、有声内容生产等场景。200余种音色可按业务场景筛选，支持命令行或Python灵活调用，语速音量可调，输出格式兼容主流播放环境，降低人工配音成本。

落地案例：电商运营需为促销文案生成批量语音素材，通过命令行指定文本内容与音色类型，即可导出mp3文件用于广告投放；在线教育团队利用Python API将课程讲义转为多版本语音，匹配不同讲师风格；客服部门调节语速参数生成清晰播报音频，嵌入IVR语音导航系统，提升用户接听体验。

能做什么

将任意文本转换为自然流畅的语音输出
从200+音色中按场景分类浏览并选择合适声音
导出mp3、pcm、wav三种音频格式
调节语速与音量参数
通过命令行或Python代码集成到工作流

使用说明

安装步骤

cd skills/volcano-tts
pip install -r requirements.txt

配置API凭证

首次使用需配置火山引擎API凭证，获取地址：https://console.volcengine.com/

from scripts.tts import setup_api_config

setup_api_config(
    app_id="你的AppID",
    access_token="你的AccessToken", 
    secret_key="你的SecretKey"
)

基础调用

from scripts.tts import VolcanoTTS

tts = VolcanoTTS()
output = tts.synthesize("你好世界", output_file="output.mp3")

未配置API时的处理

系统检测到API缺失时会停止运行并询问用户：可选择立即配置，或在用户明确确认后使用默认音色。

输入与输出

见下方输入与输出表格。

项目	内容
输入	文本字符串、输出路径、音色编码、语速(0.5-2.0)、音量(0.1-3.0)
输出	指定格式的音频文件及合成结果状态
适用人群	开发者、内容运营、自动化运维人员
不包含	实时流式合成、声纹克隆、离线推理能力

风险提示

API凭证需妥善保管，避免泄露
默认音色功能需用户明确确认后方可使用
服务依赖火山引擎网络稳定性
大量调用可能产生费用，请关注配额

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/xdrshjr/doubao-api-open-tts/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

豆包语音合成

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

ElevenLabs语音合成

本地语音转文字

YouTube视频助手

本地语音交互

本地语音转文字

YouTube字幕提取

视频广告内容提取

本地语音服务

暂无评论

标签云