语音转文字

5小时前更新 1 00

音频文件转录为文本

收录时间：

2026-02-26

手机查看

语音转文字

技能简介

voice-transcribe 使用 OpenAI 的 gpt-4o-mini-transcribe 模型，将音频文件转换为文字。支持通过自定义词库和文本替换规则修正转录结果，适合处理 WhatsApp 语音备忘等场景。

业务背景

将会议录音、客户留言等音频快速转为可搜索、可编辑的文字，省去人工听写时间。通过自定义词库和替换规则，提升专业术语识别准确度，避免反复校对。

落地案例：销售团队收到WhatsApp语音备忘后，直接上传MP3文件，系统自动转录为文字并缓存结果。若发现品牌名或产品术语识别错误，可在vocab.txt添加提示词，或在replacements.txt设置强制替换规则，后续同类音频自动修正，无需逐条人工干预。

能做什么

将 MP3、WAV、OGG 等格式的音频转为文字
通过 vocab.txt 添加专业术语或人名提示
通过 replacements.txt 强制修正特定错误
按文件 SHA256 缓存结果，避免重复调用 API

使用说明

安装要求：需先安装 uv（Python 包管理器），访问 https://docs.astral.sh/uv/ 获取安装方法。

配置步骤：

克隆技能仓库到本地目录
在 /Users/darin/clawd/skills/voice-transcribe/.env 中添加 OpenAI API 密钥：
OPENAI_API_KEY=sk-...

运行命令：

uv run /path/to/voice-transcribe/transcribe <audio-file>

示例：转录语音备忘并复制到剪贴板

transcribe /tmp/memo.ogg | pbcopy

输入与输出

见下方输入与输出表格。

项目	内容
输入	本地音频文件（MP3、MP4、MPEG、MPGA、M4A、WAV、WEBM、OGG、OPUS 格式）；可选 vocab.txt 词库文件、replacements.txt 替换规则文件
输出	转录文本（stdout 输出）；运行状态信息（stderr）
适用人群	频繁接收语音消息需快速转文字的商务用户；播客/采访内容整理者；有专业术语转录需求的技术团队
不包含	实时语音流转录、非英语语言支持、说话人区分标记、视频图像分析

风险提示

仅支持英语，无语言自动检测功能
需要有效的 OpenAI API 密钥及网络连接
大文件可能产生较多 API 调用费用
缓存基于文件 SHA256，修改后的同名文件会重新转录

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/darinkishore/voice-transcribe/SKILL.md
来源类型：GitHub 开源仓库

数据统计

暂无评论

暂无评论...

语音转文字

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Mac语音播报

Pocket录音读取

WhatsApp语音消息

二维码编解码

WhatsApp动图发送

印尼歌词英译

AI电台主播

API限流监控

暂无评论

标签云