Gemini多媒体生成

3小时前更新 1 00
Gemini多媒体生成Gemini多媒体生成
Gemini多媒体生成

技能简介

本技能整合Google Gemini API的六项核心能力,提供端到端的多模态媒体工作流与代码模板,覆盖图像生成/理解、视频生成/理解、语音合成与音频理解六大场景。

能做什么

  • Nano Banana图像生成:文生图、图像编辑、多轮迭代优化
  • 图像理解:图文问答、分类对比、信息提取(支持内联与Files API)
  • Veo 3.1视频生成:8秒视频生成,支持宽高比控制、首尾帧引导、原生音频
  • 视频理解:上传/YouTube链接分析,生成摘要、问答、带时间戳的证据提取
  • Gemini原生TTS:单/多说话人,可控风格/口音/语速/语调
  • 音频理解:描述、转录、时间段转录、Token计数

使用说明

安装依赖

npm install @google/genai

环境配置

设置API密钥:export GEMINI_API_KEY="your_key"

快速选择模型

  • 图像生成:gemini-2.5-flash-image(速度优先)或 gemini-3-pro-image-preview(质量优先)
  • 视频生成:veo-3.1-generate-preview
  • 语音合成:gemini-2.5-flash-preview-tts
  • 通用理解:gemini-3-flash-preview

文件输入模式

小文件(<20MB)用内联Base64;大文件或需复用走Files API:先调用files.upload()获取URI,再在generateContent中引用。

输出处理

  • 图像:解析response中的inline_data Base64,保存为PNG/JPG
  • 语音:返回PCM字节(24kHz/16bit/单声道),保存为.pcm或封装为.wav
  • 视频:异步任务,轮询operation状态后下载

输入与输出

见下方输入与输出表格。

项目内容
输入文本提示词、参考图像(可选)、音视频文件或YouTube链接、系统指令、模型参数
输出生成图像(Base64/PNG/JPG)、生成视频(MP4)、合成语音(PCM/WAV)、理解结果文本、操作状态URI
适用人群内容团队、多模态应用开发者、音视频分析师、播客创作者
不包含非Node.js官方SDK示例、模型微调接口、长视频生成、实时流式生成、第三方包装器适配

 

风险提示

  • 模型名称、版本、限额可能变更,使用前请核对官方文档
  • 内联模式有~20MB总请求大小限制,超限自动切换Files API
  • Veo视频生成为异步长时任务,需实现轮询机制
  • TTS输出为原始PCM,需自行封装为 playable 格式
  • 商业使用需关注Google AI Studio/GCP的服务条款与计费策略

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/xsir0/google-gemini-media/SKILL.md
来源类型:GitHub开源技能库

数据统计

相关导航

暂无评论

none
暂无评论...