AI电话语音助手
实时语音通话机器人搭
whisper-mlx-local 是一款在 Apple Silicon Mac 上本地运行的语音转文字工具,为 Telegram 和 WhatsApp 的语音消息提供免费、私密的转录服务。音频数据全程留在本地设备,无需调用云端 API,不产生任何费用。
为Apple Silicon Mac用户提供零成本、纯本地的语音转文字方案,解决Telegram、WhatsApp语音消息处理需求。数据不出设备,满足隐私合规要求,无API调用费用,适合高频使用场景。
落地案例:外贸业务员每日需处理大量WhatsApp客户语音,配置该工具后,右键语音消息即可本地转文字查看,支持中英混杂内容识别。出差无网络时照常使用,批量处理历史语音文件时通过HTTP接口导入,无需逐条操作。
pip3 install -r requirements.txtpython3 scripts/daemon.py~/.openclaw/openclaw.json,添加 tools.media.audio 配置,指向 transcribe.sh 脚本路径openclaw gateway restart如需开机自启,复制 plist 文件到 LaunchAgents 目录并用 launchctl 加载。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 语音消息文件(OGG、MP3、WAV 等格式);HTTP POST 请求(multipart/form-data) |
| 输出 | 转录文本(JSON 格式,含 text 和 language 字段);翻译后的英文文本(启用 –translate 时) |
| 适用人群 | Apple Silicon Mac 用户;高频使用 Telegram/WhatsApp 语音消息的用户;注重隐私、不愿上传音频至云端的用户;希望节省 API 调用费用的个人或团队 |
| 不包含 | Windows 或 Linux 系统支持;Intel Mac 支持;实时流式转录;说话人分离功能 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/impkind/whisper-mlx-local/SKILL.md
来源类型:GitHub 社区技能