OpenAI语音转写OpenAI语音转写
OpenAI语音转写

技能简介

该技能通过OpenAI Audio Transcriptions API(Whisper模型)将音频文件转换为文本,支持多种音频格式和语言识别。

业务背景

将会议录音、访谈音频、客服通话等快速转为可编辑文字,省去人工听写时间。支持多语言识别与格式定制,方便跨国团队整理文档或生成字幕。适用于内容生产、合规存档、信息检索等场景,提升音频资料的利用效率。

落地案例:市场部录制了一场30分钟的产品发布会英文演讲,需要整理成中文会议纪要。用户上传M4A录音文件,指定自动检测语言并添加产品名称作为提示词优化识别。转写完成后获得带时间戳的JSON结果,导入翻译工具生成初稿,再由人工校对定稿,大幅缩短内容产出周期。

能做什么

  • 将m4a、ogg等格式音频转为文字
  • 指定识别语言或自动检测
  • 添加提示词优化专有名词识别
  • 输出纯文本或JSON格式结果

使用说明

安装要求

需预先安装curl,并配置OpenAI API密钥。

配置密钥

方式一:设置环境变量OPENAI_API_KEY

方式二:在~/.clawdbot/clawdbot.json中配置:

{ skills: { "openai-whisper-api": { apiKey: "YOUR_KEY_HERE" } } }

基础用法

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

默认使用whisper-1模型,输出为同路径txt文件。

常用参数

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频文件路径;可选参数:–language语言代码、–prompt提示词、–model模型名、–json输出格式、–out输出路径
输出转写文本文件(.txt) 或 JSON格式结果(含segments时间戳信息)
适用人群需快速获取音频文字稿的内容工作者、多语言会议记录员、播客运营者
不包含本地离线转写、视频处理、实时语音识别、音频编辑功能

 

风险提示

  • 音频文件上传至OpenAI服务器处理,存在数据外泄风险
  • API按用量计费,长音频可能产生较高费用
  • 敏感内容不建议使用该服务
  • 网络不稳定可能导致转写中断

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/steipete/openai-whisper-api/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...