Voice.ai语音合成
多语言AI语音生成工
基于MLX框架在Apple Silicon设备上本地运行的语音识别工具,使用GLM-ASR-Nano-2512开源模型将音频转换为文字,无需联网或API密钥。
安装步骤:
bash ${baseDir}/install.sh该脚本会自动通过brew安装依赖:ffmpeg(音频格式转换)、uv(Python包管理)、mlx_audio(核心推理库)。
使用方法:
bash ${baseDir}/mlx-stt.sh <audio_file_path>
首次运行会下载模型,速度较慢;识别结果直接输出到终端。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频文件路径,支持mp3/wav/m4a等常见格式 |
| 输出 | 纯文本识别结果,直接打印至标准输出 |
| 适用人群 | 拥有Apple Silicon Mac、需要本地离线语音转写的用户 |
| 不包含 | 实时录音输入、说话人区分、云端API调用、非macOS系统支持 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/guoqiao/mlx-stt/SKILL.md
来源类型:GitHub仓库