Discord语音助手
Discord实时语
本技能整合Google Gemini API的六项核心能力,提供端到端的多模态媒体工作流与代码模板,覆盖图像生成/理解、视频生成/理解、语音合成与音频理解六大场景。
安装依赖
npm install @google/genai
环境配置
设置API密钥:export GEMINI_API_KEY="your_key"
快速选择模型
文件输入模式
小文件(<20MB)用内联Base64;大文件或需复用走Files API:先调用files.upload()获取URI,再在generateContent中引用。
输出处理
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 文本提示词、参考图像(可选)、音视频文件或YouTube链接、系统指令、模型参数 |
| 输出 | 生成图像(Base64/PNG/JPG)、生成视频(MP4)、合成语音(PCM/WAV)、理解结果文本、操作状态URI |
| 适用人群 | 内容团队、多模态应用开发者、音视频分析师、播客创作者 |
| 不包含 | 非Node.js官方SDK示例、模型微调接口、长视频生成、实时流式生成、第三方包装器适配 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/xsir0/google-gemini-media/SKILL.md
来源类型:GitHub开源技能库