音视频转录工具

1小时前更新 1 00

YouTube与本地

收录时间：

2026-02-26

手机查看

音视频转录工具

技能简介

Transcribee 是一款命令行转录工具，支持 YouTube 视频下载及本地音频/视频文件的语音识别，自动区分不同说话人并输出结构化文本。

业务背景

解决会议记录、访谈整理、培训内容归档等场景下的语音信息处理难题。自动区分说话人并输出结构化文本，省去人工听写的繁琐工作，让团队快速获取可检索、可编辑的文字资料，提升知识沉淀效率。

落地案例：市场部录制了一场90分钟的客户深度访谈视频，需要整理成文字纪要。使用工具上传本地MP4文件，系统自动识别两位对话者的发言段落，生成带时间戳的转录文本。项目经理直接获取标注了"发言人A/B"的结构化文档，无需反复拖拽进度条核对，2小时内完成原本需要1天的整理工作。

能做什么

下载 YouTube 视频并提取音轨进行转录
处理本地 MP3、MP4、WAV 等常见格式文件
自动识别多个说话人并标注发言段落
生成纯文本、带时间戳 JSON 等多种输出格式

使用说明

安装依赖

brew install yt-dlp ffmpeg

基本用法

# YouTube 视频（URL 含特殊字符时需加引号）
transcribee "https://www.youtube.com/watch?v=..."

# 本地视频文件
transcribee ~/path/to/video.mp4

# 本地音频文件
transcribee ~/path/to/podcast.mp3

转录结果默认保存至 ~/Documents/transcripts/{category}/{title}-{date}/ 目录。

输入与输出

见下方输入与输出表格。

项目	内容
输入	YouTube 链接或本地音视频文件（MP3/MP4/WAV/MKV 等）
输出	四种格式文件：带说话人标签文本、纯文本、JSON 时间戳、元数据
适用人群	播客制作者、内容创作者、研究人员、需要整理音视频资料的用户
不包含	实时流式转录、视频画面分析、自动翻译功能

风险提示

YouTube 内容受版权保护，请确保拥有合法使用权
需要 ElevenLabs API 密钥，请在 .env 文件中配置
大文件转录耗时较长且消耗 API 额度
yt-dlp 或 ffmpeg 未安装会导致运行失败

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/itsfabioroma/transcribee/SKILL.md
来源类型：GitHub 开源项目

数据统计

暂无评论

暂无评论...

音视频转录工具

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

AI语音合成

Voice.ai语音代理管理

Plaud录音数据访问

屏幕实时解说

Vapi语音助手管理

学中文引擎

YouTube全能工具

语音转文字服务

暂无评论

标签云