本地语音转文字
高速离线音频转录工具
Jarvis Voice 为 OpenClaw 代理赋予类似《钢铁侠》中 JARVIS 的语音人格:采用 sherpa-onnx 离线 TTS 引擎(英式 Alan 音色),配合 ffmpeg 金属音效处理,输出带有冷幽默风格的语音回复。
为技术团队或极客用户打造沉浸式语音交互体验,无需联网即可生成带人格特色的语音反馈。金属音效与冷幽默风格强化产品辨识度,适合演示环境、开发者工具或个性化助手场景,降低对外部服务的依赖。
落地案例:某开源社区在Linux服务器管理工具中集成该功能。当管理员查询系统状态时,代理以英式口音播报
安装依赖:
sudo apt install ffmpeg alsa-utils~/.openclaw/tools/sherpa-onnx-tts/~/.openclaw/tools/sherpa-onnx-tts/models/vits-piper-en_GB-alan-medium/~/.local/bin/jarvis 并加入 PATHexport SHERPA_ONNX_TTS_DIR=~/.openclaw/tools/sherpa-onnx-tts调用方式:
exec(command='jarvis "Your spoken text here."', background=true)
随后在同一回复中添加视觉转录:**Jarvis:** *Your spoken text here.*
关键限制:禁用内置 tts 工具,必须使用 jarvis 命令;仅支持英文;单次回复限 1500 字符;每轮对话仅调用一次。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 英文文本字符串(≤1500字符);exec 命令参数 background=true |
| 输出 | 本地音频播放 + Markdown 格式紫色斜体转录行 |
| 适用人群 | Linux 桌面/服务器用户;需要离线语音的隐私敏感场景;偏好英式幽默风格的开发者 |
| 不包含 | 云端语音合成;非英语语种;可视化语音波形或字幕同步;移动端支持 |
jarvis 进行音频播放,需预先审查脚本内容原始链接:https://github.com/openclaw/skills/tree/main/skills/globalcaos/jarvis-voice/SKILL.md
来源类型:GitHub 仓库