本地语音转文字本地语音转文字
本地语音转文字

技能简介

基于OpenAI Whisper的本地语音转文字工具,下载模型后完全离线运行,无需联网即可将音频文件转换为文本。

业务背景

完全离线的Whisper语音转写方案,彻底解决网络不稳定或数据出境受限场景下的语音识别需求。下载模型后断网可用,支持从精简到完整的多种模型规格,企业可按硬件条件与精度要求灵活选择。时间戳输出功能直接满足字幕制作、内容审核等需要精准定位的业务场景。

落地案例:某跨国企业在海外工厂部署质检系统,因当地网络条件差无法调用云端API。使用该工具预下载turbo模型后离线运行,将产线巡检的WAV录音实时转为带时间戳的文本,自动标记异常时间点供工程师回溯。JSON输出格式便于对接内部数据库,实现无网环境下的语音数据结构化归档。

能做什么

  • 将WAV等音频文件转为文字
  • 支持多种模型尺寸,平衡速度与准确度
  • 生成带时间戳的字幕级输出
  • 自动检测或指定识别语言
  • 输出纯文本或JSON结构化数据

使用说明

安装依赖

# 进入技能目录
cd ~/.clawdbot/skills/local-whisper

# 创建Python虚拟环境并安装依赖
uv venv .venv --python 3.12
uv pip install --python .venv/bin/python click openai-whisper torch --index-url https://download.pytorch.org/whl/cpu

# 首次运行会自动下载Whisper模型

基础用法

# 默认base模型转写
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav

# 使用turbo模型(速度质量均衡)
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --model turbo

# 输出带时间戳的JSON
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --timestamps --json

常用参数

  • --model/-m:模型尺寸(tiny/base/small/turbo/large-v3)
  • --language/-l:指定语言代码,省略则自动检测
  • --timestamps/-t:包含单词级时间戳
  • --json/-j:JSON格式输出
  • --quiet/-q:静默模式

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件路径(支持WAV等格式);可选参数:–model指定模型、–language指定语言、–timestamps启用时间戳、–json输出JSON
输出标准输出流:纯文本或JSON格式字符串,包含转写文本及可选的时间戳、置信度信息
适用人群需要离线语音转写的个人开发者、隐私敏感型用户、内容创作者、自动化脚本编写者
不包含实时流式识别、说话人区分、云端API服务、GPU加速支持、非Whisper识别引擎

 

风险提示

  • large-v3模型需1.5GB存储空间,确保磁盘充足
  • 首次使用需下载模型,耗时取决于网络
  • CPU推理大模型时速度较慢,建议用turbo平衡
  • 需要预先安装ffmpeg系统依赖
  • 长音频文件处理占用内存较高

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/araa47/local-whisper/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...