Azure语音转写

13分钟前更新 2 00

Azure AI语音

收录时间：

2026-02-25

手机查看

Azure语音转写

技能简介

Azure AI Transcription SDK for Python，用于实时和批量语音转文字，支持时间戳标记和说话人分离功能。

业务背景

Azure语音转写服务帮助业务人员快速处理音频内容，将会议录音、客服通话等批量转为可搜索文字，或通过实时流式转写获取即时字幕。支持自动区分不同说话人并标注时间戳，方便后续整理会议纪要、生成视频字幕或进行内容审核，提升信息处理效率。

落地案例：市场部录制了一场2小时的产品发布会，需要整理成文字稿。使用批量转写功能上传音频文件，系统自动输出带时间戳的完整文本，并标记主持人与嘉宾的发言段落，编辑团队可直接基于结构化文稿剪辑短视频片段，无需反复听录核对。

能做什么

将音频文件批量转换为文字，适合长录音处理
实时流式语音转写，低延迟获取识别结果
自动区分不同说话人（diarization）
输出带时间戳的文本，便于字幕生成
通过环境变量配置服务端点与密钥

使用说明

安装指令

pip install azure-ai-transcription

步骤1：配置环境变量

TRANSCRIPTION_ENDPOINT=https://<resource>.cognitiveservices.azure.com
TRANSCRIPTION_KEY=<your-key>

步骤2：创建客户端

import os
from azure.ai.transcription import TranscriptionClient

client = TranscriptionClient(
    endpoint=os.environ["TRANSCRIPTION_ENDPOINT"],
    credential=os.environ["TRANSCRIPTION_KEY"]
)

步骤3：执行批量转写

job = client.begin_transcription(
    name="meeting-transcription",
    locale="en-US",
    content_urls=["https://<storage>/audio.wav"],
    diarization_enabled=True
)
result = job.result()
print(result.status)

步骤4：执行实时转写

stream = client.begin_stream_transcription(locale="en-US")
stream.send_audio_file("audio.wav")
for event in stream:
    print(event.text)

输入与输出

见下方输入与输出表格。

项目	内容
输入	音频文件URL、本地音频流、语言区域代码、Azure服务端点、订阅密钥、说话人分离开关
输出	转写文本、时间戳、说话人标识、任务状态、实时事件流
适用人群	Python开发人员、会议系统开发者、字幕制作人员、语音数据分析工程师
不包含	视频处理、其他云厂商语音服务、离线运行能力、超出Azure服务条款的SLA承诺

风险提示

DefaultAzureCredential 不被该客户端支持，必须使用订阅密钥认证
实时转写需处理流控反压，避免数据堆积
长文件建议使用批量模式而非实时模式
需显式关闭转写会话以释放资源
语言设置影响识别准确率，建议明确指定

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/thegovind/azure-ai-transcription-py/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

Azure语音转写

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

文档转Markdown

AdGuard DNS管理

MCP服务管理器

YouTube视频转录

Swarm并行计算

集群API生命周期管理

Palantir CLI助手

运维仪表盘

暂无评论

标签云