文档转Markdown
多格式文件转Mark
Azure AI Transcription SDK for Python,用于实时和批量语音转文字,支持时间戳标记和说话人分离功能。
Azure语音转写服务帮助业务人员快速处理音频内容,将会议录音、客服通话等批量转为可搜索文字,或通过实时流式转写获取即时字幕。支持自动区分不同说话人并标注时间戳,方便后续整理会议纪要、生成视频字幕或进行内容审核,提升信息处理效率。
落地案例:市场部录制了一场2小时的产品发布会,需要整理成文字稿。使用批量转写功能上传音频文件,系统自动输出带时间戳的完整文本,并标记主持人与嘉宾的发言段落,编辑团队可直接基于结构化文稿剪辑短视频片段,无需反复听录核对。
安装指令
pip install azure-ai-transcription
步骤1:配置环境变量
TRANSCRIPTION_ENDPOINT=https://<resource>.cognitiveservices.azure.com
TRANSCRIPTION_KEY=<your-key>
步骤2:创建客户端
import os
from azure.ai.transcription import TranscriptionClient
client = TranscriptionClient(
endpoint=os.environ["TRANSCRIPTION_ENDPOINT"],
credential=os.environ["TRANSCRIPTION_KEY"]
)
步骤3:执行批量转写
job = client.begin_transcription(
name="meeting-transcription",
locale="en-US",
content_urls=["https://<storage>/audio.wav"],
diarization_enabled=True
)
result = job.result()
print(result.status)
步骤4:执行实时转写
stream = client.begin_stream_transcription(locale="en-US")
stream.send_audio_file("audio.wav")
for event in stream:
print(event.text)
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频文件URL、本地音频流、语言区域代码、Azure服务端点、订阅密钥、说话人分离开关 |
| 输出 | 转写文本、时间戳、说话人标识、任务状态、实时事件流 |
| 适用人群 | Python开发人员、会议系统开发者、字幕制作人员、语音数据分析工程师 |
| 不包含 | 视频处理、其他云厂商语音服务、离线运行能力、超出Azure服务条款的SLA承诺 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/thegovind/azure-ai-transcription-py/SKILL.md
来源类型:GitHub仓库