Gemini语音转写Gemini语音转写
Gemini语音转写

技能简介

本技能通过Google Gemini API或Vertex AI,将本地音频文件转换为文字。默认使用gemini-2.0-flash-lite模型,兼顾速度与成本。

业务背景

Gemini语音转写解决音频信息快速文字化的需求。支持Telegram语音消息及主流音频格式,自动识别最优认证通道,兼顾处理速度与调用成本,让会议录音、客户沟通记录等语音内容可检索、可存档、可分析。

落地案例:销售团队每日通过Telegram接收大量客户语音反馈,传统方式需逐条收听记录。业务人员将.ogg格式的语音消息批量传入该技能,选择轻量模型快速转写,10分钟获得结构化文字记录,直接导入CRM关联客户档案,后续可按关键词检索特定需求,无需反复回听原始音频。

能做什么

  • 转写Telegram语音消息(.ogg/.opus格式)
  • 处理常见音频格式:MP3、WAV、M4A
  • 自动识别认证方式,优先使用Vertex AI ADC
  • 支持指定模型版本与GCP项目/区域
  • 与Clawdbot媒体目录直接对接

使用说明

安装步骤

  1. 确保Python 3.10+已安装(无需额外依赖)
  2. 选择认证方式之一:
    方式一(推荐):gcloud auth application-default login并设置项目
    方式二:在~/.env~/.clawdbot/.env中配置GEMINI_API_KEY
  3. 将技能文件放置于~/.claude/skills/gemini-stt/

基础用法

# 自动检测认证(先ADC,后API Key)
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg

# 强制使用Vertex AI
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex

# 指定模型版本
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --model gemini-2.5-pro

# Vertex AI指定项目与区域
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex --project my-project --region us-central1

# 处理Clawdbot语音消息
python ~/.claude/skills/gemini-stt/transcribe.py ~/.clawdbot/media/inbound/voice-message.ogg

输入与输出

见下方输入与输出表格。

项目内容
输入本地音频文件路径;可选参数包括–model模型名称、–vertex强制Vertex AI、–project GCP项目ID、–region GCP区域
输出转写后的纯文本内容;错误或异常时输出至stderr并返回退出码1
适用人群需要语音转文字的个人用户、Clawdbot开发者、有GCP账户的团队、追求零依赖部署的技术人员
不包含实时流式识别、说话人分离、多语言翻译、音频预处理、批量文件夹处理

 

风险提示

  • 未配置认证时脚本退出并报错
  • Vertex AI模式需提前设置GCP项目,否则报错
  • 大文件或长音频可能触发API超时限制
  • 转写质量受音频清晰度与背景噪音影响
  • API调用产生费用,注意模型选择与用量控制

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/araa47/gemini-stt/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...