ElevenLabs语音合成
多语言AI语音生成工
mlx-audio-server 是基于 Apple MLX 框架的本地语音处理服务,在 Mac 上提供 OpenAI 兼容格式的 STT(语音转文字)与 TTS(文字转语音)API。通过 Homebrew 安装并作为系统服务常驻运行,无需联网即可调用。
安装步骤:
bash ${baseDir}/install.sh使用方法:
STT(语音转文字):bash ${baseDir}/run_stt.sh <audio_or_video_path>
输入支持任意音视频格式,自动转为 wav 后识别,输出纯文本。
TTS(文字转语音):bash ${baseDir}/run_tts.sh "Hello, Human!"
或指定输出目录:bash ${baseDir}/run_tts.sh "Hello, Human!" ./output
默认保存为 speech.wav,输出音频文件路径。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频/视频文件路径(STT);纯文本字符串(TTS);可选输出目录 |
| 输出 | 识别文本(STT);合成音频文件路径(TTS) |
| 适用人群 | Mac 用户;需要离线语音处理的开发者;金融场景语音录入;行情播报语音生成 |
| 不包含 | Windows/Linux 支持;云端 API 调用;实时流式识别;多语言模型切换 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/guoqiao/mlx-audio-server/SKILL.md
来源类型:GitHub 仓库