Mac语音播报
调用系统say命令朗
voice-transcribe 使用 OpenAI 的 gpt-4o-mini-transcribe 模型,将音频文件转换为文字。支持通过自定义词库和文本替换规则修正转录结果,适合处理 WhatsApp 语音备忘等场景。
将会议录音、客户留言等音频快速转为可搜索、可编辑的文字,省去人工听写时间。通过自定义词库和替换规则,提升专业术语识别准确度,避免反复校对。
落地案例:销售团队收到WhatsApp语音备忘后,直接上传MP3文件,系统自动转录为文字并缓存结果。若发现品牌名或产品术语识别错误,可在vocab.txt添加提示词,或在replacements.txt设置强制替换规则,后续同类音频自动修正,无需逐条人工干预。
安装要求:需先安装 uv(Python 包管理器),访问 https://docs.astral.sh/uv/ 获取安装方法。
配置步骤:
/Users/darin/clawd/skills/voice-transcribe/.env 中添加 OpenAI API 密钥:OPENAI_API_KEY=sk-...运行命令:
uv run /path/to/voice-transcribe/transcribe <audio-file>
示例:转录语音备忘并复制到剪贴板
transcribe /tmp/memo.ogg | pbcopy
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 本地音频文件(MP3、MP4、MPEG、MPGA、M4A、WAV、WEBM、OGG、OPUS 格式);可选 vocab.txt 词库文件、replacements.txt 替换规则文件 |
| 输出 | 转录文本(stdout 输出);运行状态信息(stderr) |
| 适用人群 | 频繁接收语音消息需快速转文字的商务用户;播客/采访内容整理者;有专业术语转录需求的技术团队 |
| 不包含 | 实时语音流转录、非英语语言支持、说话人区分标记、视频图像分析 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/darinkishore/voice-transcribe/SKILL.md
来源类型:GitHub 开源仓库