音视频转录工具

1小时前更新 1 00
音视频转录工具音视频转录工具
音视频转录工具

技能简介

Transcribee 是一款命令行转录工具,支持 YouTube 视频下载及本地音频/视频文件的语音识别,自动区分不同说话人并输出结构化文本。

业务背景

解决会议记录、访谈整理、培训内容归档等场景下的语音信息处理难题。自动区分说话人并输出结构化文本,省去人工听写的繁琐工作,让团队快速获取可检索、可编辑的文字资料,提升知识沉淀效率。

落地案例:市场部录制了一场90分钟的客户深度访谈视频,需要整理成文字纪要。使用工具上传本地MP4文件,系统自动识别两位对话者的发言段落,生成带时间戳的转录文本。项目经理直接获取标注了"发言人A/B"的结构化文档,无需反复拖拽进度条核对,2小时内完成原本需要1天的整理工作。

能做什么

  • 下载 YouTube 视频并提取音轨进行转录
  • 处理本地 MP3、MP4、WAV 等常见格式文件
  • 自动识别多个说话人并标注发言段落
  • 生成纯文本、带时间戳 JSON 等多种输出格式

使用说明

安装依赖

brew install yt-dlp ffmpeg

基本用法

# YouTube 视频(URL 含特殊字符时需加引号)
transcribee "https://www.youtube.com/watch?v=..."

# 本地视频文件
transcribee ~/path/to/video.mp4

# 本地音频文件
transcribee ~/path/to/podcast.mp3

转录结果默认保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目录。

输入与输出

见下方输入与输出表格。

项目内容
输入YouTube 链接或本地音视频文件(MP3/MP4/WAV/MKV 等)
输出四种格式文件:带说话人标签文本、纯文本、JSON 时间戳、元数据
适用人群播客制作者、内容创作者、研究人员、需要整理音视频资料的用户
不包含实时流式转录、视频画面分析、自动翻译功能

 

风险提示

  • YouTube 内容受版权保护,请确保拥有合法使用权
  • 需要 ElevenLabs API 密钥,请在 .env 文件中配置
  • 大文件转录耗时较长且消耗 API 额度
  • yt-dlp 或 ffmpeg 未安装会导致运行失败

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/itsfabioroma/transcribee/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...