本地语音转文字

20分钟前更新 1 00

Mac端免费语音消息

收录时间：

2026-02-26

本地语音转文字

whisper-mlx-local 是一款在 Apple Silicon Mac 上本地运行的语音转文字工具，为 Telegram 和 WhatsApp 的语音消息提供免费、私密的转录服务。音频数据全程留在本地设备，无需调用云端 API，不产生任何费用。

为Apple Silicon Mac用户提供零成本、纯本地的语音转文字方案，解决Telegram、WhatsApp语音消息处理需求。数据不出设备，满足隐私合规要求，无API调用费用，适合高频使用场景。

落地案例：外贸业务员每日需处理大量WhatsApp客户语音，配置该工具后，右键语音消息即可本地转文字查看，支持中英混杂内容识别。出差无网络时照常使用，批量处理历史语音文件时通过HTTP接口导入，无需逐条操作。

安装依赖
pip3 install -r requirements.txt
启动守护进程
python3 scripts/daemon.py
首次运行会自动下载约 1.5GB 的 Whisper 模型，请等待出现 “Ready” 提示。首次转录需 10-30 秒加载模型，后续即时响应。
配置 OpenClaw
编辑 ~/.openclaw/openclaw.json，添加 tools.media.audio 配置，指向 transcribe.sh 脚本路径
重启网关
openclaw gateway restart

如需开机自启，复制 plist 文件到 LaunchAgents 目录并用 launchctl 加载。

见下方输入与输出表格。

项目	内容
输入	语音消息文件（OGG、MP3、WAV 等格式）；HTTP POST 请求（multipart/form-data）
输出	转录文本（JSON 格式，含 text 和 language 字段）；翻译后的英文文本（启用 –translate 时）
适用人群	Apple Silicon Mac 用户；高频使用 Telegram/WhatsApp 语音消息的用户；注重隐私、不愿上传音频至云端的用户；希望节省 API 调用费用的个人或团队
不包含	Windows 或 Linux 系统支持；Intel Mac 支持；实时流式转录；说话人分离功能

原始链接：https://github.com/openclaw/skills/tree/main/skills/impkind/whisper-mlx-local/SKILL.md
来源类型：GitHub 社区技能

数据统计

暂无评论...