本地语音转文字

28分钟前更新 1 00

Apple芯片Mac

收录时间：

2026-02-26

手机查看

本地语音转文字

技能简介

mlx-whisper 是基于 Apple MLX 框架的本地语音识别工具，专为 Apple Silicon Mac（M1/M2/M3/M4）优化。无需 API 密钥，完全本地运行，支持将音频/视频转换为文字、字幕或翻译结果。

业务背景

mlx-whisper为Apple芯片Mac用户提供零成本的本地语音处理能力。媒体团队、研究人员可在无网络环境下完成采访转写、会议记录整理及视频字幕制作，敏感音频数据无需上传云端，兼顾效率与信息安全。多语言识别与英译功能支撑跨国内容本地化需求。

落地案例：一位纪录片导演使用M2 MacBook Pro处理20小时野外采访素材。他运行mlx-whisper指定高质量模型，将藏语访谈转为SRT字幕并同步翻译为英文参考文本。全程本地运算保障受访者隐私，生成的字幕时间轴精准对齐画面，后期团队直接导入剪辑软件完成粗剪。

能做什么

将音频文件转为纯文本或字幕文件（SRT）
为视频自动生成字幕
识别多语言内容并翻译为英文
根据需求选择不同速度与质量的模型

使用说明

安装指令：

pip install mlx-whisper

基础用法：

# 基础转写
mlx_whisper /path/to/audio.mp3 --model mlx-community/whisper-large-v3-turbo

# 输出为文本文件
mlx_whisper audio.m4a -f txt -o ./output

# 指定语言提示
mlx_whisper audio.mp3 --language en --model mlx-community/whisper-large-v3-turbo

# 生成 SRT 字幕
mlx_whisper video.mp4 -f srt -o ./subs

# 翻译为英文
mlx_whisper foreign.mp3 --task translate

模型选择建议：推荐使用 mlx-community/whisper-large-v3-turbo（约1.6GB，速度快且质量优秀）；初次使用时会自动下载模型至 ~/.cache/huggingface/。

输入与输出

见下方输入与输出表格。

项目	内容
输入	音频/视频文件路径；可选参数：–language 语言代码、–model 模型名称、-f 输出格式、-o 输出目录、–task translate
输出	转写文本（默认输出到控制台，或保存为txt/srt/vtt/json等格式文件）
适用人群	拥有Apple Silicon Mac的内容创作者、研究人员、需要隐私保护的语音处理用户
不包含	Intel Mac支持、非Apple平台、API调用方式、实时麦克风输入识别、批量处理脚本

风险提示

仅支持 Apple Silicon Mac，Intel Mac 无法使用
大模型首次下载耗时较长，需预留存储空间
默认模型质量一般，重要场景请显式指定高质量模型
长音频处理可能占用较多内存

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/kevin37li/mlx-whisper/SKILL.md
来源类型：GitHub 开源项目

数据统计

暂无评论

暂无评论...

本地语音转文字

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

AI电话代拨

AI电台主播