Twitter/X交互工具
读写推文与社交互动
该技能通过OpenAI Audio Transcriptions API(Whisper模型)将音频文件转换为文本,支持多种音频格式和语言识别。
将会议录音、访谈音频、客服通话等快速转为可编辑文字,省去人工听写时间。支持多语言识别与格式定制,方便跨国团队整理文档或生成字幕。适用于内容生产、合规存档、信息检索等场景,提升音频资料的利用效率。
落地案例:市场部录制了一场30分钟的产品发布会英文演讲,需要整理成中文会议纪要。用户上传M4A录音文件,指定自动检测语言并添加产品名称作为提示词优化识别。转写完成后获得带时间戳的JSON结果,导入翻译工具生成初稿,再由人工校对定稿,大幅缩短内容产出周期。
安装要求
需预先安装curl,并配置OpenAI API密钥。
配置密钥
方式一:设置环境变量OPENAI_API_KEY
方式二:在~/.clawdbot/clawdbot.json中配置:
{ skills: { "openai-whisper-api": { apiKey: "YOUR_KEY_HERE" } } }
基础用法
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a
默认使用whisper-1模型,输出为同路径txt文件。
常用参数
{baseDir}/scripts/transcribe.sh /path/to/audio.ogg --model whisper-1 --out /tmp/transcript.txt
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --language en
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --prompt "Speaker names: Peter, Daniel"
{baseDir}/scripts/transcribe.sh /path/to/audio.m4a --json --out /tmp/transcript.json
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 本地音频文件路径;可选参数:–language语言代码、–prompt提示词、–model模型名、–json输出格式、–out输出路径 |
| 输出 | 转写文本文件(.txt) 或 JSON格式结果(含segments时间戳信息) |
| 适用人群 | 需快速获取音频文字稿的内容工作者、多语言会议记录员、播客运营者 |
| 不包含 | 本地离线转写、视频处理、实时语音识别、音频编辑功能 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/steipete/openai-whisper-api/SKILL.md
来源类型:GitHub仓库