本地语音转文字本地语音转文字
本地语音转文字

技能简介

mlx-whisper 是基于 Apple MLX 框架的本地语音识别工具,专为 Apple Silicon Mac(M1/M2/M3/M4)优化。无需 API 密钥,完全本地运行,支持将音频/视频转换为文字、字幕或翻译结果。

业务背景

mlx-whisper为Apple芯片Mac用户提供零成本的本地语音处理能力。媒体团队、研究人员可在无网络环境下完成采访转写、会议记录整理及视频字幕制作,敏感音频数据无需上传云端,兼顾效率与信息安全。多语言识别与英译功能支撑跨国内容本地化需求。

落地案例:一位纪录片导演使用M2 MacBook Pro处理20小时野外采访素材。他运行mlx-whisper指定高质量模型,将藏语访谈转为SRT字幕并同步翻译为英文参考文本。全程本地运算保障受访者隐私,生成的字幕时间轴精准对齐画面,后期团队直接导入剪辑软件完成粗剪。

能做什么

  • 将音频文件转为纯文本或字幕文件(SRT)
  • 为视频自动生成字幕
  • 识别多语言内容并翻译为英文
  • 根据需求选择不同速度与质量的模型

使用说明

安装指令:

pip install mlx-whisper

基础用法:

# 基础转写
mlx_whisper /path/to/audio.mp3 --model mlx-community/whisper-large-v3-turbo

# 输出为文本文件
mlx_whisper audio.m4a -f txt -o ./output

# 指定语言提示
mlx_whisper audio.mp3 --language en --model mlx-community/whisper-large-v3-turbo

# 生成 SRT 字幕
mlx_whisper video.mp4 -f srt -o ./subs

# 翻译为英文
mlx_whisper foreign.mp3 --task translate

模型选择建议:推荐使用 mlx-community/whisper-large-v3-turbo(约1.6GB,速度快且质量优秀);初次使用时会自动下载模型至 ~/.cache/huggingface/

输入与输出

见下方输入与输出表格。

项目内容
输入音频/视频文件路径;可选参数:–language 语言代码、–model 模型名称、-f 输出格式、-o 输出目录、–task translate
输出转写文本(默认输出到控制台,或保存为txt/srt/vtt/json等格式文件)
适用人群拥有Apple Silicon Mac的内容创作者、研究人员、需要隐私保护的语音处理用户
不包含Intel Mac支持、非Apple平台、API调用方式、实时麦克风输入识别、批量处理脚本

 

风险提示

  • 仅支持 Apple Silicon Mac,Intel Mac 无法使用
  • 大模型首次下载耗时较长,需预留存储空间
  • 默认模型质量一般,重要场景请显式指定高质量模型
  • 长音频处理可能占用较多内存

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/kevin37li/mlx-whisper/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...