Deepgram语音转写
命令行语音转文字工具
基于OpenAI Whisper的本地语音转文字工具,下载模型后完全离线运行,无需联网即可将音频文件转换为文本。
完全离线的Whisper语音转写方案,彻底解决网络不稳定或数据出境受限场景下的语音识别需求。下载模型后断网可用,支持从精简到完整的多种模型规格,企业可按硬件条件与精度要求灵活选择。时间戳输出功能直接满足字幕制作、内容审核等需要精准定位的业务场景。
落地案例:某跨国企业在海外工厂部署质检系统,因当地网络条件差无法调用云端API。使用该工具预下载turbo模型后离线运行,将产线巡检的WAV录音实时转为带时间戳的文本,自动标记异常时间点供工程师回溯。JSON输出格式便于对接内部数据库,实现无网环境下的语音数据结构化归档。
安装依赖
# 进入技能目录
cd ~/.clawdbot/skills/local-whisper
# 创建Python虚拟环境并安装依赖
uv venv .venv --python 3.12
uv pip install --python .venv/bin/python click openai-whisper torch --index-url https://download.pytorch.org/whl/cpu
# 首次运行会自动下载Whisper模型
基础用法
# 默认base模型转写
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav
# 使用turbo模型(速度质量均衡)
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --model turbo
# 输出带时间戳的JSON
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --timestamps --json
常用参数
--model/-m:模型尺寸(tiny/base/small/turbo/large-v3)--language/-l:指定语言代码,省略则自动检测--timestamps/-t:包含单词级时间戳--json/-j:JSON格式输出--quiet/-q:静默模式见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频文件路径(支持WAV等格式);可选参数:–model指定模型、–language指定语言、–timestamps启用时间戳、–json输出JSON |
| 输出 | 标准输出流:纯文本或JSON格式字符串,包含转写文本及可选的时间戳、置信度信息 |
| 适用人群 | 需要离线语音转写的个人开发者、隐私敏感型用户、内容创作者、自动化脚本编写者 |
| 不包含 | 实时流式识别、说话人区分、云端API服务、GPU加速支持、非Whisper识别引擎 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/araa47/local-whisper/SKILL.md
来源类型:GitHub仓库