豆包语音合成

4小时前更新 1 00
豆包语音合成豆包语音合成
豆包语音合成

技能简介

基于豆包(火山引擎)API的文本转语音服务,提供200余种自然音色选择,支持命令行与Python API两种调用方式。

业务背景

豆包语音合成将文字内容快速转化为自然语音,适用于客服播报、有声内容生产等场景。200余种音色可按业务场景筛选,支持命令行或Python灵活调用,语速音量可调,输出格式兼容主流播放环境,降低人工配音成本。

落地案例:电商运营需为促销文案生成批量语音素材,通过命令行指定文本内容与音色类型,即可导出mp3文件用于广告投放;在线教育团队利用Python API将课程讲义转为多版本语音,匹配不同讲师风格;客服部门调节语速参数生成清晰播报音频,嵌入IVR语音导航系统,提升用户接听体验。

能做什么

  • 将任意文本转换为自然流畅的语音输出
  • 从200+音色中按场景分类浏览并选择合适声音
  • 导出mp3、pcm、wav三种音频格式
  • 调节语速与音量参数
  • 通过命令行或Python代码集成到工作流

使用说明

安装步骤

cd skills/volcano-tts
pip install -r requirements.txt

配置API凭证

首次使用需配置火山引擎API凭证,获取地址:https://console.volcengine.com/

from scripts.tts import setup_api_config

setup_api_config(
    app_id="你的AppID",
    access_token="你的AccessToken", 
    secret_key="你的SecretKey"
)

基础调用

from scripts.tts import VolcanoTTS

tts = VolcanoTTS()
output = tts.synthesize("你好世界", output_file="output.mp3")

未配置API时的处理

系统检测到API缺失时会停止运行并询问用户:可选择立即配置,或在用户明确确认后使用默认音色。

输入与输出

见下方输入与输出表格。

项目内容
输入文本字符串、输出路径、音色编码、语速(0.5-2.0)、音量(0.1-3.0)
输出指定格式的音频文件及合成结果状态
适用人群开发者、内容运营、自动化运维人员
不包含实时流式合成、声纹克隆、离线推理能力

 

风险提示

  • API凭证需妥善保管,避免泄露
  • 默认音色功能需用户明确确认后方可使用
  • 服务依赖火山引擎网络稳定性
  • 大量调用可能产生费用,请关注配额

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/xdrshjr/doubao-api-open-tts/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...