Gemini多媒体生成

3小时前更新 1 00

图像视频语音生成与理

收录时间：

2026-02-26

手机查看

Gemini多媒体生成

技能简介

本技能整合Google Gemini API的六项核心能力，提供端到端的多模态媒体工作流与代码模板，覆盖图像生成/理解、视频生成/理解、语音合成与音频理解六大场景。

能做什么

Nano Banana图像生成：文生图、图像编辑、多轮迭代优化
图像理解：图文问答、分类对比、信息提取（支持内联与Files API）
Veo 3.1视频生成：8秒视频生成，支持宽高比控制、首尾帧引导、原生音频
视频理解：上传/YouTube链接分析，生成摘要、问答、带时间戳的证据提取
Gemini原生TTS：单/多说话人，可控风格/口音/语速/语调
音频理解：描述、转录、时间段转录、Token计数

使用说明

安装依赖

npm install @google/genai

环境配置

设置API密钥：export GEMINI_API_KEY="your_key"

快速选择模型

图像生成：gemini-2.5-flash-image（速度优先）或 gemini-3-pro-image-preview（质量优先）
视频生成：veo-3.1-generate-preview
语音合成：gemini-2.5-flash-preview-tts
通用理解：gemini-3-flash-preview

文件输入模式

小文件（<20MB）用内联Base64；大文件或需复用走Files API：先调用files.upload()获取URI，再在generateContent中引用。

输出处理

图像：解析response中的inline_data Base64，保存为PNG/JPG
语音：返回PCM字节（24kHz/16bit/单声道），保存为.pcm或封装为.wav
视频：异步任务，轮询operation状态后下载

输入与输出

见下方输入与输出表格。

项目	内容
输入	文本提示词、参考图像（可选）、音视频文件或YouTube链接、系统指令、模型参数
输出	生成图像（Base64/PNG/JPG）、生成视频（MP4）、合成语音（PCM/WAV）、理解结果文本、操作状态URI
适用人群	内容团队、多模态应用开发者、音视频分析师、播客创作者
不包含	非Node.js官方SDK示例、模型微调接口、长视频生成、实时流式生成、第三方包装器适配

风险提示

模型名称、版本、限额可能变更，使用前请核对官方文档
内联模式有~20MB总请求大小限制，超限自动切换Files API
Veo视频生成为异步长时任务，需实现轮询机制
TTS输出为原始PCM，需自行封装为 playable 格式
商业使用需关注Google AI Studio/GCP的服务条款与计费策略

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/xsir0/google-gemini-media/SKILL.md
来源类型：GitHub开源技能库

数据统计

暂无评论

暂无评论...

Gemini多媒体生成

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Discord语音助手

通义万相生图

Renderful AI图像视频生成

推文创作助手

AI梗图生成器

数字身份扮演

NotebookLM命令行工具

Grok图像生成

暂无评论

标签云