OpenRouter音频转写

3小时前更新 1 00

调用OpenRout

收录时间：

2026-02-26

手机查看

OpenRouter音频转写

技能简介

通过OpenRouter聊天补全接口，使用支持音频输入的模型（如Gemini、GPT-4o-audio等）将音频文件转换为文字稿。

能做什么

将本地音频文件（m4a、ogg等格式）转写为纯文本
指定不同模型进行转写，对比效果
添加自定义提示词，如要求标注说话人
将结果保存到指定文件
在OpenRouter后台追踪调用来源

使用说明

安装前提：系统需已安装 curl、ffmpeg、base64、jq。

配置密钥：设置环境变量 OPENROUTER_API_KEY，或在 ~/.clawdbot/clawdbot.json 中配置 apiKey。

基础用法：

{baseDir}/scripts/transcribe.sh /path/to/audio.m4a

常用选项：

# 更换模型
{baseDir}/scripts/transcribe.sh audio.ogg --model openai/gpt-4o-audio-preview

# 添加转写指令
{baseDir}/scripts/transcribe.sh audio.m4a --prompt "标注说话人"

# 输出到文件
{baseDir}/scripts/transcribe.sh audio.m4a --out /tmp/transcript.txt

# 自定义调用标识
{baseDir}/scripts/transcribe.sh audio.m4a --title "MyApp"

输入与输出

见下方输入与输出表格。

项目	内容
输入	本地音频文件路径；OpenRouter API密钥；可选参数包括模型名称、自定义提示词、输出文件路径、调用标题
输出	转写后的纯文本内容，默认输出至标准输出，可指定保存到文件
适用人群	需要将录音转为文字的个人用户；批量处理音频的开发者；已接入OpenRouter的技术团队
不包含	音频剪辑、音量调节等编辑功能；实时语音流转写；自动区分多说话人的结构化输出

风险提示

大体积音频文件经base64编码后可能超出shell参数长度限制，脚本虽采用临时文件规避，但仍建议控制单文件时长
若返回空响应，需检查API密钥、模型是否支持音频输入、文件是否损坏
音频上传至第三方API，敏感内容请评估合规性
macOS与Linux的mktemp行为差异已由脚本处理，跨平台使用无需额外调整

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/obviyus/openrouter-transcribe/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

OpenRouter音频转写

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

日历命令行管理

免费AI模型管理

视频字幕生成

Atlassian MCP服务

对话摘要生成

arXiv论文评论

语音回复

本地语音转文字

暂无评论

标签云