EachLabs语音转写
音频URL转文字服务
本技能通过Google Gemini API或Vertex AI,将本地音频文件转换为文字。默认使用gemini-2.0-flash-lite模型,兼顾速度与成本。
Gemini语音转写解决音频信息快速文字化的需求。支持Telegram语音消息及主流音频格式,自动识别最优认证通道,兼顾处理速度与调用成本,让会议录音、客户沟通记录等语音内容可检索、可存档、可分析。
落地案例:销售团队每日通过Telegram接收大量客户语音反馈,传统方式需逐条收听记录。业务人员将.ogg格式的语音消息批量传入该技能,选择轻量模型快速转写,10分钟获得结构化文字记录,直接导入CRM关联客户档案,后续可按关键词检索特定需求,无需反复回听原始音频。
安装步骤
gcloud auth application-default login并设置项目~/.env或~/.clawdbot/.env中配置GEMINI_API_KEY~/.claude/skills/gemini-stt/基础用法
# 自动检测认证(先ADC,后API Key)
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg
# 强制使用Vertex AI
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex
# 指定模型版本
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --model gemini-2.5-pro
# Vertex AI指定项目与区域
python ~/.claude/skills/gemini-stt/transcribe.py /path/to/audio.ogg --vertex --project my-project --region us-central1
# 处理Clawdbot语音消息
python ~/.claude/skills/gemini-stt/transcribe.py ~/.clawdbot/media/inbound/voice-message.ogg
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 本地音频文件路径;可选参数包括–model模型名称、–vertex强制Vertex AI、–project GCP项目ID、–region GCP区域 |
| 输出 | 转写后的纯文本内容;错误或异常时输出至stderr并返回退出码1 |
| 适用人群 | 需要语音转文字的个人用户、Clawdbot开发者、有GCP账户的团队、追求零依赖部署的技术人员 |
| 不包含 | 实时流式识别、说话人分离、多语言翻译、音频预处理、批量文件夹处理 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/araa47/gemini-stt/SKILL.md
来源类型:GitHub仓库