X空间录音转录
录制并转录Twitt
local-stt 是一款在本地运行的语音转文字工具,基于 ONNX Runtime 引擎并采用 int8 量化技术。支持 Parakeet 和 Whisper 两种后端,用户可按需选择精度优先或速度优先的方案。
安装前提:系统需已安装 ffmpeg。
基础调用:
# 默认使用 Parakeet v2(英语最佳精度)
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg
指定后端:
# 使用 Whisper 后端
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b whisper
# 使用 Parakeet v3 多语言模型
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg -b parakeet -m v3
安静模式:
~/.openclaw/skills/local-stt/scripts/local-stt.py audio.ogg --quiet
可选参数包括 -m/--model 选择模型变体、--no-int8 关闭量化、--room-id 指定 Matrix 房间 ID。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频文件路径;可选参数:后端类型(-b)、模型版本(-m)、量化开关(–no-int8)、安静模式(-q) |
| 输出 | 识别后的纯文本;可通过 –room-id 推送至指定 Matrix 房间 |
| 适用人群 | 注重数据隐私的开发者、需要离线语音处理的运维人员、英语或多语言内容转写用户 |
| 不包含 | 实时流式识别、说话人分离、云端服务、自动标点优化 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/araa47/local-stt/SKILL.md
来源类型:GitHub 仓库