Gemini语音转写

1小时前更新 1 00

调用Gemini A

收录时间：

2026-02-26

手机查看

Gemini语音转写

技能简介

本技能通过Google Gemini API或Vertex AI，将本地音频文件转换为文字。默认使用gemini-2.0-flash-lite模型，兼顾速度与成本。

业务背景

Gemini语音转写解决音频信息快速文字化的需求。支持Telegram语音消息及主流音频格式，自动识别最优认证通道，兼顾处理速度与调用成本，让会议录音、客户沟通记录等语音内容可检索、可存档、可分析。

落地案例：销售团队每日通过Telegram接收大量客户语音反馈，传统方式需逐条收听记录。业务人员将.ogg格式的语音消息批量传入该技能，选择轻量模型快速转写，10分钟获得结构化文字记录，直接导入CRM关联客户档案，后续可按关键词检索特定需求，无需反复回听原始音频。

能做什么

转写Telegram语音消息（.ogg/.opus格式）
处理常见音频格式：MP3、WAV、M4A
自动识别认证方式，优先使用Vertex AI ADC
支持指定模型版本与GCP项目/区域
与Clawdbot媒体目录直接对接

使用说明

安装步骤

确保Python 3.10+已安装（无需额外依赖）
选择认证方式之一：
方式一（推荐）：gcloud auth application-default login并设置项目
方式二：在~/.env或~/.clawdbot/.env中配置GEMINI_API_KEY
将技能文件放置于~/.claude/skills/gemini-stt/

基础用法

# 自动检测认证（先ADC，后API Key）
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg

# 强制使用Vertex AI
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex

# 指定模型版本
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --model gemini-2.5-pro

# Vertex AI指定项目与区域
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex --project my-project --region us-central1

# 处理Clawdbot语音消息
python ~/.claude/skills/gemini-stt/transcribe.py ~/.clawdbot/media/inbound/voice-message.ogg

输入与输出

见下方输入与输出表格。

项目	内容
输入	本地音频文件路径；可选参数包括–model模型名称、–vertex强制Vertex AI、–project GCP项目ID、–region GCP区域
输出	转写后的纯文本内容；错误或异常时输出至stderr并返回退出码1
适用人群	需要语音转文字的个人用户、Clawdbot开发者、有GCP账户的团队、追求零依赖部署的技术人员
不包含	实时流式识别、说话人分离、多语言翻译、音频预处理、批量文件夹处理

风险提示

未配置认证时脚本退出并报错
Vertex AI模式需提前设置GCP项目，否则报错
大文件或长音频可能触发API超时限制
转写质量受音频清晰度与背景噪音影响
API调用产生费用，注意模型选择与用量控制

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/araa47/gemini-stt/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

Gemini语音转写

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

EachLabs语音转写

语音唤醒播报

AI电台主播

YouTube视频转录助手

Markdown转PDF

学中文引擎

帕梅拉语音通话

音视频转录工具

暂无评论

标签云