本地语音转文字
Apple芯片Mac
本技能通过OpenAI Audio Speech API,将输入文本转换为自然语音输出。支持多种音色选择与音质档位,适用于自动化播报、内容朗读等场景。
客服、培训及内容运营团队可将文字材料一键转为语音,适配多终端播报或音频课程制作。多种音色与语速档位支持品牌调性匹配,标准与高清双模型兼顾成本与音质诉求,实现规模化音频内容生产。
落地案例:某在线教育平台需将课程讲义转为音频供学员收听,调用语音合成功能选择沉稳男声音色、标准音质档位及适中语速,输入讲稿文本后直接输出MP3文件嵌入课件。若遇VIP精品课,则切换HD模型提升听感体验。
安装准备
需预先安装curl,并配置OpenAI API密钥:
# 环境变量方式
export OPENAI_API_KEY="sk-..."
# 或配置文件方式 ~/.clawdbot/clawdbot.json
{
skills: {
entries: {
"openai-tts": { apiKey: "sk-..." }
}
}
}
基础用法
{baseDir}/scripts/speak.sh "你好,世界"
{baseDir}/scripts/speak.sh "你好,世界" --out /tmp/hello.mp3
完整参数示例
{baseDir}/scripts/speak.sh "文本内容" \
--voice nova \
--model tts-1-hd \
--format opus \
--speed 1.2 \
--out speech.mp3
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 待转换文本;可选参数:音色(alloy/echo/fable/onyx/nova/shimmer)、模型(tts-1/tts-1-hd)、格式(mp3/opus/aac/flac/wav/pcm)、语速(0.25-4.0)、输出路径 |
| 输出 | 音频文件(MP3等)或写入标准输出流 |
| 适用人群 | 需程序化语音合成的开发者、自动化内容生产者、系统集成工程师 |
| 不包含 | 离线合成、音色定制训练、实时低延迟流式接口 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/pors/openai-tts/SKILL.md
来源类型:GitHub仓库