本地语音服务本地语音服务
本地语音服务

技能简介

mlx-audio-server 是基于 Apple MLX 框架的本地语音处理服务,在 Mac 上提供 OpenAI 兼容格式的 STT(语音转文字)与 TTS(文字转语音)API。通过 Homebrew 安装并作为系统服务常驻运行,无需联网即可调用。

能做什么

  • 将音频或视频文件转为文字(支持自动格式转换)
  • 将文字合成为自然语音并保存为音频文件
  • 提供与 OpenAI API 格式一致的本地端点
  • 24×7 后台服务,随时响应请求

使用说明

安装步骤:

  1. 执行安装脚本:bash ${baseDir}/install.sh
  2. 脚本会自动完成以下操作:
    • 通过 brew 安装 ffmpeg、jq(如缺失)
    • 从 guoqiao/tap 安装 mlx-audio-server 公式
    • 启动 brew service 作为后台服务

使用方法:

STT(语音转文字):
bash ${baseDir}/run_stt.sh <audio_or_video_path>
输入支持任意音视频格式,自动转为 wav 后识别,输出纯文本。

TTS(文字转语音):
bash ${baseDir}/run_tts.sh "Hello, Human!"
或指定输出目录:
bash ${baseDir}/run_tts.sh "Hello, Human!" ./output
默认保存为 speech.wav,输出音频文件路径。

输入与输出

见下方输入与输出表格。

项目内容
输入音频/视频文件路径(STT);纯文本字符串(TTS);可选输出目录
输出识别文本(STT);合成音频文件路径(TTS)
适用人群Mac 用户;需要离线语音处理的开发者;金融场景语音录入;行情播报语音生成
不包含Windows/Linux 支持;云端 API 调用;实时流式识别;多语言模型切换

 

风险提示

  • 仅支持 macOS + Apple Silicon 设备
  • 依赖 Homebrew,需提前安装
  • 首次运行需下载模型文件,占用磁盘空间
  • 服务端口冲突时需手动调整配置

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/guoqiao/mlx-audio-server/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...