本地语音转文字

4小时前更新 1 00

离线语音识别工具

收录时间：

2026-02-26

手机查看

本地语音转文字

技能简介

local-stt 是一款在本地运行的语音转文字工具，基于 ONNX Runtime 引擎并采用 int8 量化技术。支持 Parakeet 和 Whisper 两种后端，用户可按需选择精度优先或速度优先的方案。

能做什么

将音频文件（如 OGG 格式）转换为文字
在 Parakeet（英语高精度）与 Whisper（多语言高速）之间切换后端
通过 int8 量化实现低资源占用下的快速推理
以安静模式运行，隐藏进度输出

使用说明

安装前提：系统需已安装 ffmpeg。

基础调用：

# 默认使用 Parakeet v2（英语最佳精度）
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg

指定后端：

# 使用 Whisper 后端
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper

# 使用 Parakeet v3 多语言模型
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3

安静模式：

~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet

可选参数包括 -m/--model 选择模型变体、--no-int8 关闭量化、--room-id 指定 Matrix 房间 ID。

输入与输出

见下方输入与输出表格。

项目	内容
输入	音频文件路径；可选参数：后端类型（-b）、模型版本（-m）、量化开关（–no-int8）、安静模式（-q）
输出	识别后的纯文本；可通过 –room-id 推送至指定 Matrix 房间
适用人群	注重数据隐私的开发者、需要离线语音处理的运维人员、英语或多语言内容转写用户
不包含	实时流式识别、说话人分离、云端服务、自动标点优化

风险提示

Parakeet 默认针对英语优化，其他语言识别效果可能下降
首次运行需下载模型文件，请确保网络畅通
int8 量化虽提升速度，但极端情况下可能影响个别词汇的识别准确度
音频质量直接影响转写结果，背景噪音过大时需预处理

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/araa47/local-stt/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

本地语音转文字

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

X空间录音转录

Pamela语音通话

对齐语音助手

Deepdub语音合成

Otter会议转录工具

YouTube视频转录

本地语音转文字

AI电话代拨

暂无评论

标签云