本地语音转文字

4小时前更新 1 00

离线语音识别工具

收录时间:
2026-02-26
本地语音转文字本地语音转文字
本地语音转文字

技能简介

local-stt 是一款在本地运行的语音转文字工具,基于 ONNX Runtime 引擎并采用 int8 量化技术。支持 Parakeet 和 Whisper 两种后端,用户可按需选择精度优先或速度优先的方案。

能做什么

  • 将音频文件(如 OGG 格式)转换为文字
  • 在 Parakeet(英语高精度)与 Whisper(多语言高速)之间切换后端
  • 通过 int8 量化实现低资源占用下的快速推理
  • 以安静模式运行,隐藏进度输出

使用说明

安装前提:系统需已安装 ffmpeg。

基础调用

# 默认使用 Parakeet v2(英语最佳精度)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg

指定后端

# 使用 Whisper 后端
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper

# 使用 Parakeet v3 多语言模型
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3

安静模式

~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet

可选参数包括 -m/--model 选择模型变体、--no-int8 关闭量化、--room-id 指定 Matrix 房间 ID。

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件路径;可选参数:后端类型(-b)、模型版本(-m)、量化开关(–no-int8)、安静模式(-q)
输出识别后的纯文本;可通过 –room-id 推送至指定 Matrix 房间
适用人群注重数据隐私的开发者、需要离线语音处理的运维人员、英语或多语言内容转写用户
不包含实时流式识别、说话人分离、云端服务、自动标点优化

 

风险提示

  • Parakeet 默认针对英语优化,其他语言识别效果可能下降
  • 首次运行需下载模型文件,请确保网络畅通
  • int8 量化虽提升速度,但极端情况下可能影响个别词汇的识别准确度
  • 音频质量直接影响转写结果,背景噪音过大时需预处理

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/araa47/local-stt/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...