本地语音转文字本地语音转文字
本地语音转文字

技能简介

Parakeet MLX 是基于 Apple Silicon 芯片的本地语音识别工具,使用 MLX 框架运行 Parakeet 模型,将音频文件转换为文字,无需联网或 API 密钥。

能做什么

  • 将 MP3、M4A 等格式音频转为 txt、srt、vtt、json 等文本格式
  • 批量处理多个音频文件(支持通配符)
  • 高亮显示识别词汇并输出置信度分数
  • 完全本地运行,保护音频隐私

使用说明

安装步骤

  1. 确保已安装 uv 包管理器与 ffmpeg
  2. 执行安装指令:uv tool install parakeet-mlx -U(注意:使用 uv tool install 而非 uv addpip install
  3. 首次运行时自动从 Hugging Face 下载模型到 ~/.cache/huggingface

基础用法

  • 简单转录:parakeet-mlx /path/audio.mp3 --output-format txt
  • 生成字幕并高亮词汇:parakeet-mlx /path/audio.m4a --output-format vtt --highlight-words
  • 批量导出全部格式:parakeet-mlx *.mp3 --output-format all
  • 查看完整选项:parakeet-mlx --help

输入与输出

见下方输入与输出表格。

项目内容
输入音频文件路径(支持 MP3、M4A、WAV 等格式);输出格式参数;可选 –highlight-words、–verbose 等标志
输出转录文本文件(txt)、字幕文件(srt/vtt)、JSON 格式(含时间戳与置信度分数)
适用人群Apple Silicon Mac 用户;需要离线语音识别的开发者;处理敏感音频的隐私场景用户;播客与会议记录整理者
不包含实时麦克风输入转录;Windows/Linux 平台支持;说话人分离功能;自定义模型训练能力

 

风险提示

  • 仅支持 Apple Silicon 设备(M1/M2/M3/M4),Intel Mac 无法运行
  • 首次下载模型需要网络连接,约占用数 GB 磁盘空间
  • 缺少 ffmpeg 会导致音频处理失败
  • 音频转录耗时较长,建议先用短音频测试

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/kylehowells/parakeet-mlx/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...