MCP服务管理器
命令行管理MCP服务
azure-ai-voicelive-py 是 Azure AI Voice Live SDK 的 Python 封装,支持通过 WebSocket 建立与 Azure AI 的双向实时音频通信。适用于开发语音助手、语音聊天机器人、实时语音翻译、语音驱动虚拟形象等场景。
Azure实时语音AI开发方案让企业快速构建自然流畅的双向语音交互应用。无需复杂底层开发,即可实现语音助手、智能客服、实时翻译等场景,支持服务器端语音检测与对话管理,显著降低语音AI应用的技术门槛和上线周期。
落地案例:某企业客服中心采用该方案搭建智能语音机器人:用户拨打热线后,系统通过WebSocket实时接收客户语音流,自动识别意图并调用后端业务系统查询订单状态,再以自然语音回复客户。全程支持打断、多轮对话,客服人员可专注处理复杂投诉,简单咨询由AI自动完成。
1. 安装依赖
pip install azure-ai-voicelive aiohttp azure-identity
2. 配置环境变量
export AZURE_COGNITIVE_SERVICES_ENDPOINT=https://<region>.api.cognitive.microsoft.com
3. 基础连接代码
from azure.ai.voicelive.aio import connect
from azure.identity.aio import DefaultAzureCredential
async with connect(
endpoint=os.environ["AZURE_COGNITIVE_SERVICES_ENDPOINT"],
credential=DefaultAzureCredential(),
model="gpt-4o-realtime-preview",
credential_scopes=["https://cognitiveservices.azure.com/.default"]
) as conn:
await conn.session.update(session={
"instructions": "You are a helpful assistant.",
"modalities": ["text", "audio"],
"voice": "alloy"
})
async for event in conn:
if event.type == "response.audio_transcript.done":
print(f"Transcript: {event.transcript}")
4. 音频流传输
发送音频:使用 conn.input_audio_buffer.append(audio=b64_audio) 推送 Base64 编码的 PCM16 音频数据;接收音频:监听 response.audio.delta 事件获取模型返回的音频流。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | Azure 认知服务端点、PCM16 格式音频流、会话配置(指令/音色/VAD参数)、身份认证凭据 |
| 输出 | 实时语音响应流、语音转写文本、对话状态事件、函数调用执行结果 |
| 适用人群 | Python 后端开发者、语音交互应用开发者、构建实时 AI 对话产品的技术团队 |
| 不包含 | 前端界面组件、预训练语音模型文件、离线识别能力、其他云平台兼容层 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/thegovind/azure-ai-voicelive-py/SKILL.md
来源类型:GitHub 开源技能库