本地语音转文字

20分钟前更新 1 00
本地语音转文字本地语音转文字
本地语音转文字

技能简介

whisper-mlx-local 是一款在 Apple Silicon Mac 上本地运行的语音转文字工具,为 TelegramWhatsApp 的语音消息提供免费、私密的转录服务。音频数据全程留在本地设备,无需调用云端 API,不产生任何费用。

业务背景

为Apple Silicon Mac用户提供零成本、纯本地的语音转文字方案,解决Telegram、WhatsApp语音消息处理需求。数据不出设备,满足隐私合规要求,无API调用费用,适合高频使用场景。

落地案例:外贸业务员每日需处理大量WhatsApp客户语音,配置该工具后,右键语音消息即可本地转文字查看,支持中英混杂内容识别。出差无网络时照常使用,批量处理历史语音文件时通过HTTP接口导入,无需逐条操作。

能做什么

  • 将 Telegram、WhatsApp 等平台的语音消息转为文字
  • 支持多语言音频翻译为英文
  • 离线环境下正常使用
  • 通过本地 HTTP 接口批量处理音频文件

使用说明

  1. 安装依赖
    pip3 install -r requirements.txt
  2. 启动守护进程
    python3 scripts/daemon.py
    首次运行会自动下载约 1.5GB 的 Whisper 模型,请等待出现 “Ready” 提示。首次转录需 10-30 秒加载模型,后续即时响应。
  3. 配置 OpenClaw
    编辑 ~/.openclaw/openclaw.json,添加 tools.media.audio 配置,指向 transcribe.sh 脚本路径
  4. 重启网关
    openclaw gateway restart

如需开机自启,复制 plist 文件到 LaunchAgents 目录并用 launchctl 加载。

输入与输出

见下方输入与输出表格。

项目内容
输入语音消息文件(OGG、MP3、WAV 等格式);HTTP POST 请求(multipart/form-data)
输出转录文本(JSON 格式,含 text 和 language 字段);翻译后的英文文本(启用 –translate 时)
适用人群Apple Silicon Mac 用户;高频使用 Telegram/WhatsApp 语音消息的用户;注重隐私、不愿上传音频至云端的用户;希望节省 API 调用费用的个人或团队
不包含Windows 或 Linux 系统支持;Intel Mac 支持;实时流式转录;说话人分离功能

 

风险提示

  • 首次下载模型约 1.5GB,需确保网络稳定与磁盘空间充足
  • 仅支持 Apple Silicon Mac(M1/M2/M3/M4),Intel Mac 无法运行
  • 首次转录有 10-30 秒预热时间,非故障
  • 长时间运行建议配置自动启动,避免手动重启

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/impkind/whisper-mlx-local/SKILL.md
来源类型:GitHub 社区技能

数据统计

相关导航

暂无评论

none
暂无评论...