语音转文字

5小时前更新 1 00
语音转文字语音转文字
语音转文字

技能简介

voice-transcribe 使用 OpenAI 的 gpt-4o-mini-transcribe 模型,将音频文件转换为文字。支持通过自定义词库和文本替换规则修正转录结果,适合处理 WhatsApp 语音备忘等场景。

业务背景

将会议录音、客户留言等音频快速转为可搜索、可编辑的文字,省去人工听写时间。通过自定义词库和替换规则,提升专业术语识别准确度,避免反复校对。

落地案例:销售团队收到WhatsApp语音备忘后,直接上传MP3文件,系统自动转录为文字并缓存结果。若发现品牌名或产品术语识别错误,可在vocab.txt添加提示词,或在replacements.txt设置强制替换规则,后续同类音频自动修正,无需逐条人工干预。

能做什么

  • 将 MP3、WAV、OGG 等格式的音频转为文字
  • 通过 vocab.txt 添加专业术语或人名提示
  • 通过 replacements.txt 强制修正特定错误
  • 按文件 SHA256 缓存结果,避免重复调用 API

使用说明

安装要求:需先安装 uv(Python 包管理器),访问 https://docs.astral.sh/uv/ 获取安装方法。

配置步骤:

  1. 克隆技能仓库到本地目录
  2. /Users/darin/clawd/skills/voice-transcribe/.env 中添加 OpenAI API 密钥:
    OPENAI_API_KEY=sk-...

运行命令:

uv run /path/to/voice-transcribe/transcribe <audio-file>

示例:转录语音备忘并复制到剪贴板

transcribe /tmp/memo.ogg | pbcopy

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频文件(MP3、MP4、MPEG、MPGA、M4A、WAV、WEBM、OGG、OPUS 格式);可选 vocab.txt 词库文件、replacements.txt 替换规则文件
输出转录文本(stdout 输出);运行状态信息(stderr)
适用人群频繁接收语音消息需快速转文字的商务用户;播客/采访内容整理者;有专业术语转录需求的技术团队
不包含实时语音流转录、非英语语言支持、说话人区分标记、视频图像分析

 

风险提示

  • 仅支持英语,无语言自动检测功能
  • 需要有效的 OpenAI API 密钥及网络连接
  • 大文件可能产生较多 API 调用费用
  • 缓存基于文件 SHA256,修改后的同名文件会重新转录

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/darinkishore/voice-transcribe/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...