VK社群管理
自动化管理VK社区内
基于ElevenLabs Scribe的语音转文字工具,支持90余种语言识别、说话人分离(diarization)及实时流式转录。可处理本地音频文件、网络流媒体及麦克风输入。
ElevenLabs语音转写可将会议录音、客服通话、直播内容等音频实时或批量转为结构化文字,支持90余种语言识别与说话人分离。企业无需人工听写即可沉淀会议纪要与客户洞察,提升合规审查效率,并为后续数据分析、知识库构建提供可检索的文本资产。
落地案例:某金融机构每日产生大量客户经理通话录音。合规团队上传前日WAV文件批量转写,启用说话人分离功能自动区分客户经理与客户声音,输出带时间戳的JSON格式文本。质检员按关键词快速定位敏感话术段落,替代逐条回听录音的传统方式,将单通录音审查时间从15分钟压缩至2分钟。
安装依赖
# macOS
brew install ffmpeg
# 设置API密钥
export ELEVENLABS_API_KEY="your_key_here"
基础用法
{baseDir}/scripts/transcribe.sh <audio_file> [options]
{baseDir}/scripts/transcribe.sh --url <stream_url> [options]
{baseDir}/scripts/transcribe.sh --mic [options]
常用示例
# 转录本地文件
./transcribe.sh recording.mp3
# 会议记录(含说话人分离)
./transcribe.sh meeting.mp3 --diarize
# 获取完整JSON(含时间戳)
./transcribe.sh interview.wav --diarize --json
# 实时流媒体转录
./transcribe.sh --url https://example.com/live.mp3
# 麦克风输入(静默模式,适合自动化场景)
./transcribe.sh --mic --quiet
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 本地音频/视频文件(MP3/WAV/MP4等)、网络流媒体URL、麦克风输入;可选参数:–diarize(说话人分离)、–lang(语言提示)、–json(JSON输出) |
| 输出 | 纯文本或JSON格式转录结果,含时间戳、说话人ID、语言概率;实时模式输出部分结果流 |
| 适用人群 | 会议记录整理者、播客/直播内容运营、语音应用开发者、多语言音频处理需求方 |
| 不包含 | 离线运行、免费无限调用、视频画面分析、医疗/法律级精度承诺 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/paulasjes/elevenlabs-transcribe/SKILL.md
来源类型:GitHub仓库