文档转Markdown
多格式文件转Mark
该技能基于 Google Gemini Vision AI,从视频广告中提取并分析内容,支持智能帧采样、文字叠加层识别、语音转文本及逐场景描述生成。
营销团队可快速拆解竞品视频广告的内容结构与叙事节奏,无需人工逐帧观看。通过自动提取画面文字、语音台词及场景切换节点,实现广告素材的系统性归档与检索,支持创意灵感挖掘与合规审查,降低内容分析的人力成本。
落地案例:某品牌市场部收到一批竞品投放的短视频广告,需在一周内完成内容盘点。使用该技能批量上传视频后,系统自动输出每支广告的场景时间线、口播文案及画面字幕,团队直接基于结构化结果对比不同品牌的卖点呈现方式,快速形成创意策略报告。
1. 环境配置
设置 Google Cloud 服务账号密钥:
export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service-account.json
确保服务账号已启用 Speech-to-Text API。
2. 安装依赖
pip install opencv-python pillow easyocr ffmpeg-python google-cloud-speech vertexai google-api-python-client
系统需预先安装 ffmpeg 和 ffprobe。
3. 基础调用
from scripts.video_extractor import VideoExtractor
import vertexai
from vertexai.generative_models import GenerativeModel
vertexai.init(project="your-project-id", location="us-central1")
gemini_model = GenerativeModel("gemini-1.5-flash")
extractor = VideoExtractor(gemini_model=gemini_model)
result = extractor.extract_content("/path/to/video.mp4")
可通过 extract_smart_frames() 单独提取帧,或传入图片路径分析单张图像。
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 本地视频文件路径(支持MP4/MOV/AVI等常见格式);Google Cloud项目配置;服务账号JSON密钥 |
| 输出 | 结构化数据对象:duration(时长)、scene_timeline(场景列表)、text_timeline(文字时间线)、transcript(完整转录)、thumbnail_url(缩略图路径) |
| 适用人群 | 需要批量解析广告素材的创意团队;进行竞品视频分析的市场研究人员;审核广告合规性的运营人员 |
| 不包含 | 视频剪辑或重新编码功能;第三方云平台(AWS/Azure)支持;无需联网的离线运行模式 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/fortytwode/meta-video-ad-analyzer/SKILL.md
来源类型:GitHub 开源仓库