本地语音转文字

22分钟前更新 1 00

高速离线音频转录工具

收录时间：

2026-02-26

手机查看

本地语音转文字

技能简介

faster-whisper 是基于 CTranslate2 重写的 OpenAI Whisper 本地实现，速度提升 4-6 倍且保持相同准确度。借助 GPU 加速可实现约 20 倍实时转录（10 分钟音频约 30 秒完成）。无需调用 API，完全离线运行。

业务背景

本地语音转文字工具满足企业对敏感音频数据的离线处理需求，无需上传云端即可快速完成会议记录、访谈整理、播客字幕制作等工作。相比在线API方案，完全本地化运行保障数据隐私安全，同时GPU加速实现分钟级处理长音频，显著提升内容生产效率。

落地案例：市场部每周需整理3场客户访谈录音，每条约90分钟。使用本工具批量导入MP3文件，30分钟内即可获取带时间戳的完整文字稿，直接生成SRT字幕用于内部培训视频。遇到多人访谈时开启说话人分离功能，自动标注不同受访者发言，后续人工校对工作量减少约70%。

能做什么

将音频/视频文件转为文字，支持会议、访谈、播客、讲座、YouTube 视频等场景
生成 SRT、VTT、ASS、LRC、TTML 等多种格式字幕
识别不同说话人并标注（说话人分离）
直接从 YouTube 链接或 RSS 播客源下载并转录
批量处理文件夹或通配符匹配的文件，自动跳过已处理项
翻译任意语言为英文，支持 99+ 种语言自动检测
按关键词搜索转录内容的时间戳位置
从静音间隙检测章节分段
导出每位说话人的独立音频片段
输出带置信度颜色的 HTML 转录稿或 CSV 表格

使用说明

安装要求：需预先安装 Python 3，可选安装 ffmpeg 和 yt-dlp 以支持更多格式和 URL 下载。首次运行会自动下载模型文件到本地缓存。

基础用法：

# 基础转录
./scripts/transcribe audio.mp3

# 生成 SRT 字幕
./scripts/transcribe audio.mp3 --format srt -o subtitles.srt

# 生成 WebVTT 字幕
./scripts/transcribe audio.mp3 --format vtt -o subtitles.vtt

# 转录 YouTube 视频
./scripts/transcribe https://youtube.com/watch?v=xxx --language en

# 说话人分离
./scripts/transcribe meeting.wav --diarize

# 指定领域术语提升准确度
./scripts/transcribe lecture.mp3 --initial-prompt "Kubernetes, gRPC, PostgreSQL"

# 批量处理目录
./scripts/transcribe ./recordings/ -o ./transcripts/

# 跳过已存在文件
./scripts/transcribe *.mp3 --skip-existing -o ./transcripts/

# 过滤低置信度片段
./scripts/transcribe noisy-audio.mp3 --min-confidence 0.6

# JSON 完整元数据输出
./scripts/transcribe audio.mp3 --format json -o result.json

# 指定语言（比自动检测更快）
./scripts/transcribe audio.mp3 --language en

输入与输出

见下方输入与输出表格。

项目	内容
输入	本地音频/视频文件、YouTube URL、RSS 播客源、目录路径或通配符模式
输出	TXT/SRT/VTT/ASS/LRC/TTML/JSON/CSV/HTML 格式的转录稿或字幕文件，可选说话人分离标注
适用人群	会议记录员、视频创作者、播客制作人、研究人员、多语言内容处理者
不包含	实时麦克风输入转录、云端 API 服务、视频画面分析、专业广播后期工具
运行平台	Linux、macOS、WSL2
硬件要求	CPU 即可运行，NVIDIA GPU 可大幅加速

风险提示

首次使用需下载模型文件，耗时取决于网络状况
GPU 加速需要 NVIDIA CUDA 环境，仅 CPU 运行速度较慢
说话人分离功能对音频质量有一定要求，嘈杂环境识别率下降
YouTube 下载依赖 yt-dlp，受平台规则变化影响可能失效
低置信度过滤可能误删有效内容，建议先查看完整结果再调整阈值

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/theplasmak/faster-whisper/SKILL.md
来源类型：GitHub 开源项目

数据统计

暂无评论

暂无评论...

本地语音转文字

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

语音转MIDI工具

语音回复生成

线索邮箱补全

WhatsApp语音消息

OpenAI语音转写

离线语音合成

ElevenLabs语音合成

OpenAI语音合成

暂无评论

标签云