语音转MIDI工具
哼唱音频生成量化MI
faster-whisper 是基于 CTranslate2 重写的 OpenAI Whisper 本地实现,速度提升 4-6 倍且保持相同准确度。借助 GPU 加速可实现约 20 倍实时转录(10 分钟音频约 30 秒完成)。无需调用 API,完全离线运行。
本地语音转文字工具满足企业对敏感音频数据的离线处理需求,无需上传云端即可快速完成会议记录、访谈整理、播客字幕制作等工作。相比在线API方案,完全本地化运行保障数据隐私安全,同时GPU加速实现分钟级处理长音频,显著提升内容生产效率。
落地案例:市场部每周需整理3场客户访谈录音,每条约90分钟。使用本工具批量导入MP3文件,30分钟内即可获取带时间戳的完整文字稿,直接生成SRT字幕用于内部培训视频。遇到多人访谈时开启说话人分离功能,自动标注不同受访者发言,后续人工校对工作量减少约70%。
安装要求:需预先安装 Python 3,可选安装 ffmpeg 和 yt-dlp 以支持更多格式和 URL 下载。首次运行会自动下载模型文件到本地缓存。
基础用法:
# 基础转录
./scripts/transcribe audio.mp3
# 生成 SRT 字幕
./scripts/transcribe audio.mp3 --format srt -o subtitles.srt
# 生成 WebVTT 字幕
./scripts/transcribe audio.mp3 --format vtt -o subtitles.vtt
# 转录 YouTube 视频
./scripts/transcribe https://youtube.com/watch?v=xxx --language en
# 说话人分离
./scripts/transcribe meeting.wav --diarize
# 指定领域术语提升准确度
./scripts/transcribe lecture.mp3 --initial-prompt "Kubernetes, gRPC, PostgreSQL"
# 批量处理目录
./scripts/transcribe ./recordings/ -o ./transcripts/
# 跳过已存在文件
./scripts/transcribe *.mp3 --skip-existing -o ./transcripts/
# 过滤低置信度片段
./scripts/transcribe noisy-audio.mp3 --min-confidence 0.6
# JSON 完整元数据输出
./scripts/transcribe audio.mp3 --format json -o result.json
# 指定语言(比自动检测更快)
./scripts/transcribe audio.mp3 --language en
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 本地音频/视频文件、YouTube URL、RSS 播客源、目录路径或通配符模式 |
| 输出 | TXT/SRT/VTT/ASS/LRC/TTML/JSON/CSV/HTML 格式的转录稿或字幕文件,可选说话人分离标注 |
| 适用人群 | 会议记录员、视频创作者、播客制作人、研究人员、多语言内容处理者 |
| 不包含 | 实时麦克风输入转录、云端 API 服务、视频画面分析、专业广播后期工具 |
| 运行平台 | Linux、macOS、WSL2 |
| 硬件要求 | CPU 即可运行,NVIDIA GPU 可大幅加速 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/theplasmak/faster-whisper/SKILL.md
来源类型:GitHub 开源项目