OpenAI语音转写

23分钟前更新 1 00

调用Whisper

收录时间：

2026-02-26

手机查看

OpenAI语音转写

技能简介

该技能通过OpenAI Audio Transcriptions API（Whisper模型）将音频文件转换为文本，支持多种音频格式和语言识别。

业务背景

将会议录音、访谈音频、客服通话等快速转为可编辑文字，省去人工听写时间。支持多语言识别与格式定制，方便跨国团队整理文档或生成字幕。适用于内容生产、合规存档、信息检索等场景，提升音频资料的利用效率。

落地案例：市场部录制了一场30分钟的产品发布会英文演讲，需要整理成中文会议纪要。用户上传M4A录音文件，指定自动检测语言并添加产品名称作为提示词优化识别。转写完成后获得带时间戳的JSON结果，导入翻译工具生成初稿，再由人工校对定稿，大幅缩短内容产出周期。

能做什么

将m4a、ogg等格式音频转为文字
指定识别语言或自动检测
添加提示词优化专有名词识别
输出纯文本或JSON格式结果

使用说明

安装要求

需预先安装curl，并配置OpenAI API密钥。

配置密钥

方式一：设置环境变量OPENAI_API_KEY

方式二：在~/.clawdbot/clawdbot.json中配置：

{ skills: { "openai-whisper-api": { apiKey: "YOUR_KEY_HERE" } } }

基础用法

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

默认使用whisper-1模型，输出为同路径txt文件。

常用参数

{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json

输入与输出

见下方输入与输出表格。

项目	内容
输入	本地音频文件路径；可选参数：–language语言代码、–prompt提示词、–model模型名、–json输出格式、–out输出路径
输出	转写文本文件(.txt) 或 JSON格式结果(含segments时间戳信息)
适用人群	需快速获取音频文字稿的内容工作者、多语言会议记录员、播客运营者
不包含	本地离线转写、视频处理、实时语音识别、音频编辑功能

风险提示

音频文件上传至OpenAI服务器处理，存在数据外泄风险
API按用量计费，长音频可能产生较高费用
敏感内容不建议使用该服务
网络不稳定可能导致转写中断

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/steipete/openai-whisper-api/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

OpenAI语音转写

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Twitter/X交互工具

对话内容摘要

RIDB营地搜索

Claw每日竞赛

AmikoNet社交连接

本地音频转文字

Mac远程语音控制

YouTube全能工具

暂无评论

标签云