本地语音转文字

3小时前更新 1 00

离线Whisper语

收录时间：

2026-02-26

手机查看

本地语音转文字

技能简介

基于OpenAI Whisper的本地语音转文字工具，下载模型后完全离线运行，无需联网即可将音频文件转换为文本。

业务背景

完全离线的Whisper语音转写方案，彻底解决网络不稳定或数据出境受限场景下的语音识别需求。下载模型后断网可用，支持从精简到完整的多种模型规格，企业可按硬件条件与精度要求灵活选择。时间戳输出功能直接满足字幕制作、内容审核等需要精准定位的业务场景。

落地案例：某跨国企业在海外工厂部署质检系统，因当地网络条件差无法调用云端API。使用该工具预下载turbo模型后离线运行，将产线巡检的WAV录音实时转为带时间戳的文本，自动标记异常时间点供工程师回溯。JSON输出格式便于对接内部数据库，实现无网环境下的语音数据结构化归档。

能做什么

将WAV等音频文件转为文字
支持多种模型尺寸，平衡速度与准确度
生成带时间戳的字幕级输出
自动检测或指定识别语言
输出纯文本或JSON结构化数据

使用说明

安装依赖

# 进入技能目录
cd ~/.clawdbot/skills/local-whisper

# 创建Python虚拟环境并安装依赖
uv venv .venv --python 3.12
uv pip install --python .venv/bin/python click openai-whisper torch --index-url https://download.pytorch.org/whl/cpu

# 首次运行会自动下载Whisper模型

基础用法

# 默认base模型转写
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav

# 使用turbo模型（速度质量均衡）
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --model turbo

# 输出带时间戳的JSON
~/.clawdbot/skills/local-whisper/scripts/local-whisper audio.wav --timestamps --json

常用参数

--model/-m：模型尺寸（tiny/base/small/turbo/large-v3）
--language/-l：指定语言代码，省略则自动检测
--timestamps/-t：包含单词级时间戳
--json/-j：JSON格式输出
--quiet/-q：静默模式

输入与输出

见下方输入与输出表格。

项目	内容
输入	音频文件路径（支持WAV等格式）；可选参数：–model指定模型、–language指定语言、–timestamps启用时间戳、–json输出JSON
输出	标准输出流：纯文本或JSON格式字符串，包含转写文本及可选的时间戳、置信度信息
适用人群	需要离线语音转写的个人开发者、隐私敏感型用户、内容创作者、自动化脚本编写者
不包含	实时流式识别、说话人区分、云端API服务、GPU加速支持、非Whisper识别引擎

风险提示

large-v3模型需1.5GB存储空间，确保磁盘充足
首次使用需下载模型，耗时取决于网络
CPU推理大模型时速度较慢，建议用turbo平衡
需要预先安装ffmpeg系统依赖
长音频文件处理占用内存较高

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/araa47/local-whisper/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

本地语音转文字

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Deepgram语音转写

Azure语音转写

ProtonMail邮件管理

Alexa语音播报

OpenAI语音转写

Overseerr影视请求

个人对话分析

语音转文字服务

暂无评论

标签云