本地语音转文字

22分钟前更新 1 00
本地语音转文字本地语音转文字
本地语音转文字

技能简介

faster-whisper 是基于 CTranslate2 重写的 OpenAI Whisper 本地实现,速度提升 4-6 倍且保持相同准确度。借助 GPU 加速可实现约 20 倍实时转录(10 分钟音频约 30 秒完成)。无需调用 API,完全离线运行。

业务背景

本地语音转文字工具满足企业对敏感音频数据的离线处理需求,无需上传云端即可快速完成会议记录、访谈整理、播客字幕制作等工作。相比在线API方案,完全本地化运行保障数据隐私安全,同时GPU加速实现分钟级处理长音频,显著提升内容生产效率。

落地案例:市场部每周需整理3场客户访谈录音,每条约90分钟。使用本工具批量导入MP3文件,30分钟内即可获取带时间戳的完整文字稿,直接生成SRT字幕用于内部培训视频。遇到多人访谈时开启说话人分离功能,自动标注不同受访者发言,后续人工校对工作量减少约70%。

能做什么

  • 将音频/视频文件转为文字,支持会议、访谈、播客、讲座、YouTube 视频等场景
  • 生成 SRT、VTT、ASS、LRC、TTML 等多种格式字幕
  • 识别不同说话人并标注(说话人分离
  • 直接从 YouTube 链接或 RSS 播客源下载并转录
  • 批量处理文件夹或通配符匹配的文件,自动跳过已处理项
  • 翻译任意语言为英文,支持 99+ 种语言自动检测
  • 按关键词搜索转录内容的时间戳位置
  • 从静音间隙检测章节分段
  • 导出每位说话人的独立音频片段
  • 输出带置信度颜色的 HTML 转录稿或 CSV 表格

使用说明

安装要求:需预先安装 Python 3,可选安装 ffmpeg 和 yt-dlp 以支持更多格式和 URL 下载。首次运行会自动下载模型文件到本地缓存。

基础用法:

# 基础转录
./scripts/transcribe audio.mp3

# 生成 SRT 字幕
./scripts/transcribe audio.mp3 --format srt -o subtitles.srt

# 生成 WebVTT 字幕
./scripts/transcribe audio.mp3 --format vtt -o subtitles.vtt

# 转录 YouTube 视频
./scripts/transcribe https://youtube.com/watch?v=xxx --language en

# 说话人分离
./scripts/transcribe meeting.wav --diarize

# 指定领域术语提升准确度
./scripts/transcribe lecture.mp3 --initial-prompt "Kubernetes, gRPC, PostgreSQL"

# 批量处理目录
./scripts/transcribe ./recordings/ -o ./transcripts/

# 跳过已存在文件
./scripts/transcribe *.mp3 --skip-existing -o ./transcripts/

# 过滤低置信度片段
./scripts/transcribe noisy-audio.mp3 --min-confidence 0.6

# JSON 完整元数据输出
./scripts/transcribe audio.mp3 --format json -o result.json

# 指定语言(比自动检测更快)
./scripts/transcribe audio.mp3 --language en

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频/视频文件、YouTube URL、RSS 播客源、目录路径或通配符模式
输出TXT/SRT/VTT/ASS/LRC/TTML/JSON/CSV/HTML 格式的转录稿或字幕文件,可选说话人分离标注
适用人群会议记录员、视频创作者、播客制作人、研究人员、多语言内容处理者
不包含实时麦克风输入转录、云端 API 服务、视频画面分析、专业广播后期工具
运行平台Linux、macOS、WSL2
硬件要求CPU 即可运行,NVIDIA GPU 可大幅加速

 

风险提示

  • 首次使用需下载模型文件,耗时取决于网络状况
  • GPU 加速需要 NVIDIA CUDA 环境,仅 CPU 运行速度较慢
  • 说话人分离功能对音频质量有一定要求,嘈杂环境识别率下降
  • YouTube 下载依赖 yt-dlp,受平台规则变化影响可能失效
  • 低置信度过滤可能误删有效内容,建议先查看完整结果再调整阈值

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/theplasmak/faster-whisper/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...