本地语音转文字

3小时前更新 1 00
本地语音转文字本地语音转文字
本地语音转文字

技能简介

基于MLX框架在Apple Silicon设备上本地运行的语音识别工具,使用GLM-ASR-Nano-2512开源模型将音频转换为文字,无需联网或API密钥。

能做什么

  • 将音频文件转为文字
  • 支持多种音频格式(通过ffmpeg自动转换)
  • 完全本地运行,保护隐私
  • 首次使用后无需重复下载模型

使用说明

安装步骤:

  1. 确保系统为macOS且搭载Apple Silicon芯片
  2. 确认已安装Homebrew
  3. 执行安装脚本:bash ${baseDir}/install.sh

该脚本会自动通过brew安装依赖:ffmpeg(音频格式转换)、uv(Python包管理)、mlx_audio(核心推理库)。

使用方法:

bash ${baseDir}/mlx-stt.sh <audio_file_path>

首次运行会下载模型,速度较慢;识别结果直接输出到终端。

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件路径,支持mp3/wav/m4a等常见格式
输出纯文本识别结果,直接打印至标准输出
适用人群拥有Apple Silicon Mac、需要本地离线语音转写的用户
不包含实时录音输入、说话人区分、云端API调用、非macOS系统支持

 

风险提示

  • 仅支持Apple Silicon Mac,Intel机型无法运行
  • 首次启动需下载模型,耗时较长
  • 长音频文件处理时间随时长增加
  • 识别准确率受音频质量影响

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/guoqiao/mlx-stt/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...