AI电话代拨
用AI自动拨打电话完
mlx-whisper 是基于 Apple MLX 框架的本地语音识别工具,专为 Apple Silicon Mac(M1/M2/M3/M4)优化。无需 API 密钥,完全本地运行,支持将音频/视频转换为文字、字幕或翻译结果。
mlx-whisper为Apple芯片Mac用户提供零成本的本地语音处理能力。媒体团队、研究人员可在无网络环境下完成采访转写、会议记录整理及视频字幕制作,敏感音频数据无需上传云端,兼顾效率与信息安全。多语言识别与英译功能支撑跨国内容本地化需求。
落地案例:一位纪录片导演使用M2 MacBook Pro处理20小时野外采访素材。他运行mlx-whisper指定高质量模型,将藏语访谈转为SRT字幕并同步翻译为英文参考文本。全程本地运算保障受访者隐私,生成的字幕时间轴精准对齐画面,后期团队直接导入剪辑软件完成粗剪。
安装指令:
pip install mlx-whisper
基础用法:
# 基础转写
mlx_whisper /path/to/audio.mp3 --model mlx-community/whisper-large-v3-turbo
# 输出为文本文件
mlx_whisper audio.m4a -f txt -o ./output
# 指定语言提示
mlx_whisper audio.mp3 --language en --model mlx-community/whisper-large-v3-turbo
# 生成 SRT 字幕
mlx_whisper video.mp4 -f srt -o ./subs
# 翻译为英文
mlx_whisper foreign.mp3 --task translate
模型选择建议:推荐使用 mlx-community/whisper-large-v3-turbo(约1.6GB,速度快且质量优秀);初次使用时会自动下载模型至 ~/.cache/huggingface/。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 音频/视频文件路径;可选参数:–language 语言代码、–model 模型名称、-f 输出格式、-o 输出目录、–task translate |
| 输出 | 转写文本(默认输出到控制台,或保存为txt/srt/vtt/json等格式文件) |
| 适用人群 | 拥有Apple Silicon Mac的内容创作者、研究人员、需要隐私保护的语音处理用户 |
| 不包含 | Intel Mac支持、非Apple平台、API调用方式、实时麦克风输入识别、批量处理脚本 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/kevin37li/mlx-whisper/SKILL.md
来源类型:GitHub 开源项目