OpenRouter音频转写

3小时前更新 1 00
OpenRouter音频转写OpenRouter音频转写
OpenRouter音频转写

技能简介

通过OpenRouter聊天补全接口,使用支持音频输入的模型(如Gemini、GPT-4o-audio等)将音频文件转换为文字稿。

能做什么

  • 将本地音频文件(m4a、ogg等格式)转写为纯文本
  • 指定不同模型进行转写,对比效果
  • 添加自定义提示词,如要求标注说话人
  • 将结果保存到指定文件
  • 在OpenRouter后台追踪调用来源

使用说明

安装前提:系统需已安装 curl、ffmpeg、base64、jq。

配置密钥:设置环境变量 OPENROUTER_API_KEY,或在 ~/.clawdbot/clawdbot.json 中配置 apiKey。

基础用法

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

常用选项

# 更换模型
{baseDir}/scripts/transcribe.sh audio.ogg --model openai/gpt-4o-audio-preview

# 添加转写指令
{baseDir}/scripts/transcribe.sh audio.m4a --prompt "标注说话人"

# 输出到文件
{baseDir}/scripts/transcribe.sh audio.m4a --out /tmp/transcript.txt

# 自定义调用标识
{baseDir}/scripts/transcribe.sh audio.m4a --title "MyApp"

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频文件路径;OpenRouter API密钥;可选参数包括模型名称、自定义提示词、输出文件路径、调用标题
输出转写后的纯文本内容,默认输出至标准输出,可指定保存到文件
适用人群需要将录音转为文字的个人用户;批量处理音频的开发者;已接入OpenRouter的技术团队
不包含音频剪辑、音量调节等编辑功能;实时语音流转写;自动区分多说话人的结构化输出

 

风险提示

  • 大体积音频文件经base64编码后可能超出shell参数长度限制,脚本虽采用临时文件规避,但仍建议控制单文件时长
  • 若返回空响应,需检查API密钥、模型是否支持音频输入、文件是否损坏
  • 音频上传至第三方API,敏感内容请评估合规性
  • macOS与Linux的mktemp行为差异已由脚本处理,跨平台使用无需额外调整

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/obviyus/openrouter-transcribe/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...