OpenAI语音合成

1小时前更新 1 00
OpenAI语音合成OpenAI语音合成
OpenAI语音合成

技能简介

本技能通过OpenAI Audio Speech API,将输入文本转换为自然语音输出。支持多种音色选择与音质档位,适用于自动化播报、内容朗读等场景。

业务背景

客服、培训及内容运营团队可将文字材料一键转为语音,适配多终端播报或音频课程制作。多种音色与语速档位支持品牌调性匹配,标准与高清双模型兼顾成本与音质诉求,实现规模化音频内容生产。

落地案例:某在线教育平台需将课程讲义转为音频供学员收听,调用语音合成功能选择沉稳男声音色、标准音质档位及适中语速,输入讲稿文本后直接输出MP3文件嵌入课件。若遇VIP精品课,则切换HD模型提升听感体验。

能做什么

  • 将任意文本转为MP3、Opus、AAC等格式音频
  • 选择6种预设音色(中性、男声、女声等风格)
  • 调节语速(0.25-4倍速)与音质档位
  • 直接输出到文件或标准输出流

使用说明

安装准备

需预先安装curl,并配置OpenAI API密钥:

# 环境变量方式
export OPENAI_API_KEY="sk-..."

# 或配置文件方式 ~/.clawdbot/clawdbot.json
{
  skills: {
    entries: {
      "openai-tts": { apiKey: "sk-..." }
    }
  }
}

基础用法

{baseDir}/scripts/speak.sh "你好,世界"
{baseDir}/scripts/speak.sh "你好,世界" --out /tmp/hello.mp3

完整参数示例

{baseDir}/scripts/speak.sh "文本内容" \
  --voice nova \
  --model tts-1-hd \
  --format opus \
  --speed 1.2 \
  --out speech.mp3

输入与输出

见下方输入与输出表格。

项目内容
输入待转换文本;可选参数:音色(alloy/echo/fable/onyx/nova/shimmer)、模型(tts-1/tts-1-hd)、格式(mp3/opus/aac/flac/wav/pcm)、语速(0.25-4.0)、输出路径
输出音频文件(MP3等)或写入标准输出流
适用人群需程序化语音合成的开发者、自动化内容生产者、系统集成工程师
不包含离线合成、音色定制训练、实时低延迟流式接口

 

风险提示

  • API调用按字符数计费,长文本需注意成本控制
  • HD模型价格为标准模型的2倍
  • 需妥善保管API密钥,避免泄露
  • 网络异常时可能导致合成失败

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/pors/openai-tts/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...