本地语音转文字本地语音转文字
本地语音转文字

技能简介

openai-whisper 是基于 OpenAI Whisper 模型的本地语音转文字工具,通过命令行直接调用,无需联网或 API 密钥即可将音频文件转换为文本。

能做什么

  • 将 MP3、M4A 等格式音频转录为 TXT、SRT 等文本格式
  • 支持多语言音频的翻译任务(translate 模式)
  • 选择不同模型平衡速度与准确度

使用说明

安装指令

brew install openai-whisper

基础用法

# 标准转录
whisper /path/audio.mp3 --model medium --output_format txt --output_dir .

# 翻译为英文并输出字幕
whisper /path/audio.m4a --task translate --output_format srt

注意事项

  • 首次运行时会自动下载模型到 ~/.cache/whisper
  • 默认使用 turbo 模型,小模型速度快,大模型准确度高

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频文件路径;可选参数:模型大小(tiny/base/small/medium/large/turbo)、任务类型(transcribe/translate)、输出格式(txt/srt/vtt/json/tsv)
输出指定格式的文本文件,默认保存至当前目录或 –output_dir 指定路径
适用人群内容创作者、研究人员、需要离线语音处理的开发者、注重隐私的个人用户
不包含实时流式识别、云端服务、可视化操作界面、商业授权的技术支持

 

风险提示

  • 模型文件较大,首次下载需充足磁盘空间与网络
  • 长音频处理占用较多内存与 CPU/GPU 资源
  • 转录质量受音频清晰度与背景噪音影响

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/steipete/openai-whisper/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...