AI语音合成
多语言实时语音生成工
Transcribee 是一款命令行转录工具,支持 YouTube 视频下载及本地音频/视频文件的语音识别,自动区分不同说话人并输出结构化文本。
解决会议记录、访谈整理、培训内容归档等场景下的语音信息处理难题。自动区分说话人并输出结构化文本,省去人工听写的繁琐工作,让团队快速获取可检索、可编辑的文字资料,提升知识沉淀效率。
落地案例:市场部录制了一场90分钟的客户深度访谈视频,需要整理成文字纪要。使用工具上传本地MP4文件,系统自动识别两位对话者的发言段落,生成带时间戳的转录文本。项目经理直接获取标注了"发言人A/B"的结构化文档,无需反复拖拽进度条核对,2小时内完成原本需要1天的整理工作。
安装依赖
brew install yt-dlp ffmpeg
基本用法
# YouTube 视频(URL 含特殊字符时需加引号)
transcribee "https://www.youtube.com/watch?v=..."
# 本地视频文件
transcribee ~/path/to/video.mp4
# 本地音频文件
transcribee ~/path/to/podcast.mp3
转录结果默认保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目录。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | YouTube 链接或本地音视频文件(MP3/MP4/WAV/MKV 等) |
| 输出 | 四种格式文件:带说话人标签文本、纯文本、JSON 时间戳、元数据 |
| 适用人群 | 播客制作者、内容创作者、研究人员、需要整理音视频资料的用户 |
| 不包含 | 实时流式转录、视频画面分析、自动翻译功能 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/itsfabioroma/transcribee/SKILL.md
来源类型:GitHub 开源项目