AI播客生成

2小时前更新 2 00

文本转实时音频叙事

收录时间：

2026-02-26

AI播客生成

基于Azure OpenAI GPT Realtime Mini模型的全栈播客生成方案，通过WebSocket连接实现文本到实时音频流的转换，支持React前端与Python FastAPI后端协同工作。

环境配置

获取Azure OpenAI Realtime API密钥与端点
创建.env文件，填入以下变量：
AZURE_OPENAI_AUDIO_API_KEY=your_realtime_api_key AZURE_OPENAI_AUDIO_ENDPOINT=https://your-resource.cognitiveservices.azure.com AZURE_OPENAI_AUDIO_DEPLOYMENT=gpt-realtime-mini
注意：端点只需基础URL，无需包含/openai/v1/

后端部署

前端集成

见下方输入与输出表格。

项目	内容
输入	文本提示词；Azure OpenAI Realtime API密钥；环境端点配置（AZURE_OPENAI_AUDIO_ENDPOINT等）
输出	24kHz PCM音频流（经WebSocket分段传输）；实时转录文本；最终WAV格式音频（Base64编码）
适用人群	需集成文本转语音功能的开发者；构建播客或音频叙事应用的团队；使用Azure OpenAI Realtime API的技术人员
不包含	本地语音模型部署能力；非Azure平台（如AWS、GCP）的替代实现；音频剪辑与后期处理工具；自动语言识别与切换功能

原始链接：https://github.com/openclaw/skills/tree/main/skills/thegovind/podcast-generation/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论...