Azure语音转写Azure语音转写
Azure语音转写

技能简介

Azure AI Transcription SDK for Python,用于实时和批量语音转文字,支持时间戳标记和说话人分离功能。

业务背景

Azure语音转写服务帮助业务人员快速处理音频内容,将会议录音、客服通话等批量转为可搜索文字,或通过实时流式转写获取即时字幕。支持自动区分不同说话人并标注时间戳,方便后续整理会议纪要、生成视频字幕或进行内容审核,提升信息处理效率。

落地案例:市场部录制了一场2小时的产品发布会,需要整理成文字稿。使用批量转写功能上传音频文件,系统自动输出带时间戳的完整文本,并标记主持人与嘉宾的发言段落,编辑团队可直接基于结构化文稿剪辑短视频片段,无需反复听录核对。

能做什么

  • 将音频文件批量转换为文字,适合长录音处理
  • 实时流式语音转写,低延迟获取识别结果
  • 自动区分不同说话人(diarization)
  • 输出带时间戳的文本,便于字幕生成
  • 通过环境变量配置服务端点与密钥

使用说明

安装指令

pip install azure-ai-transcription

步骤1:配置环境变量

TRANSCRIPTION_ENDPOINT=https://<resource>.cognitiveservices.azure.com
TRANSCRIPTION_KEY=<your-key>

步骤2:创建客户端

import os
from azure.ai.transcription import TranscriptionClient

client = TranscriptionClient(
    endpoint=os.environ["TRANSCRIPTION_ENDPOINT"],
    credential=os.environ["TRANSCRIPTION_KEY"]
)

步骤3:执行批量转写

job = client.begin_transcription(
    name="meeting-transcription",
    locale="en-US",
    content_urls=["https://<storage>/audio.wav"],
    diarization_enabled=True
)
result = job.result()
print(result.status)

步骤4:执行实时转写

stream = client.begin_stream_transcription(locale="en-US")
stream.send_audio_file("audio.wav")
for event in stream:
    print(event.text)

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件URL、本地音频流、语言区域代码、Azure服务端点、订阅密钥、说话人分离开关
输出转写文本、时间戳、说话人标识、任务状态、实时事件流
适用人群Python开发人员、会议系统开发者、字幕制作人员、语音数据分析工程师
不包含视频处理、其他云厂商语音服务、离线运行能力、超出Azure服务条款的SLA承诺

 

风险提示

  • DefaultAzureCredential 不被该客户端支持,必须使用订阅密钥认证
  • 实时转写需处理流控反压,避免数据堆积
  • 长文件建议使用批量模式而非实时模式
  • 需显式关闭转写会话以释放资源
  • 语言设置影响识别准确率,建议明确指定

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/thegovind/azure-ai-transcription-py/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...