ElevenLabs语音转写

3小时前更新 1 00
ElevenLabs语音转写ElevenLabs语音转写
ElevenLabs语音转写

技能简介

基于ElevenLabs Scribe的语音转文字工具,支持90余种语言识别、说话人分离(diarization)及实时流式转录。可处理本地音频文件、网络流媒体及麦克风输入。

业务背景

ElevenLabs语音转写可将会议录音、客服通话、直播内容等音频实时或批量转为结构化文字,支持90余种语言识别与说话人分离。企业无需人工听写即可沉淀会议纪要与客户洞察,提升合规审查效率,并为后续数据分析、知识库构建提供可检索的文本资产。

落地案例:某金融机构每日产生大量客户经理通话录音。合规团队上传前日WAV文件批量转写,启用说话人分离功能自动区分客户经理与客户声音,输出带时间戳的JSON格式文本。质检员按关键词快速定位敏感话术段落,替代逐条回听录音的传统方式,将单通录音审查时间从15分钟压缩至2分钟。

能做什么

  • 批量转录音频/视频文件(MP3、WAV、MP4等格式)
  • 实时转录网络流媒体(直播、播客)
  • 捕获麦克风输入并即时转写
  • 识别不同说话人(–diarize)
  • 输出带时间戳的JSON格式结果
  • 标记音频事件(笑声、音乐、掌声)

使用说明

安装依赖

# macOS
brew install ffmpeg

# 设置API密钥
export ELEVENLABS_API_KEY="your_key_here"

基础用法

{baseDir}/scripts/transcribe.sh <audio_file> [options]
{baseDir}/scripts/transcribe.sh --url <stream_url> [options]
{baseDir}/scripts/transcribe.sh --mic [options]

常用示例

# 转录本地文件
./transcribe.sh recording.mp3

# 会议记录(含说话人分离)
./transcribe.sh meeting.mp3 --diarize

# 获取完整JSON(含时间戳)
./transcribe.sh interview.wav --diarize --json

# 实时流媒体转录
./transcribe.sh --url https://example.com/live.mp3

# 麦克风输入(静默模式,适合自动化场景)
./transcribe.sh --mic --quiet

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频/视频文件(MP3/WAV/MP4等)、网络流媒体URL、麦克风输入;可选参数:–diarize(说话人分离)、–lang(语言提示)、–json(JSON输出)
输出纯文本或JSON格式转录结果,含时间戳、说话人ID、语言概率;实时模式输出部分结果流
适用人群会议记录整理者、播客/直播内容运营、语音应用开发者、多语言音频处理需求方
不包含离线运行、免费无限调用、视频画面分析、医疗/法律级精度承诺

 

风险提示

  • 需妥善保管ELEVENLABS_API_KEY,避免泄露
  • 单文件上限3GB或10小时时长
  • 实时流式依赖网络稳定性
  • 说话人分离准确率受音频质量影响
  • API调用产生费用,注意用量控制

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/paulasjes/elevenlabs-transcribe/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...