视频广告内容提取

10分钟前更新 1 00

AI解析视频广告帧与

收录时间：

2026-02-26

手机查看

视频广告内容提取

技能简介

该技能基于 Google Gemini Vision AI，从视频广告中提取并分析内容，支持智能帧采样、文字叠加层识别、语音转文本及逐场景描述生成。

业务背景

营销团队可快速拆解竞品视频广告的内容结构与叙事节奏，无需人工逐帧观看。通过自动提取画面文字、语音台词及场景切换节点，实现广告素材的系统性归档与检索，支持创意灵感挖掘与合规审查，降低内容分析的人力成本。

落地案例：某品牌市场部收到一批竞品投放的短视频广告，需在一周内完成内容盘点。使用该技能批量上传视频后，系统自动输出每支广告的场景时间线、口播文案及画面字幕，团队直接基于结构化结果对比不同品牌的卖点呈现方式，快速形成创意策略报告。

能做什么

智能帧提取：基于场景变化检测的采样策略
OCR 文字检测：提取画面中的文字叠加层
音频转录：将语音转换为可搜索文本
AI 场景分析：逐帧生成场景描述
原生视频理解：直接处理较长视频内容
缩略图生成：自动从首帧创建预览图

使用说明

1. 环境配置

设置 Google Cloud 服务账号密钥：

export GOOGLE_APPLICATION_CREDENTIALS=/path/to/service-account.json

确保服务账号已启用 Speech-to-Text API。

2. 安装依赖

pip install opencv-python pillow easyocr ffmpeg-python google-cloud-speech vertexai google-api-python-client

系统需预先安装 ffmpeg 和 ffprobe。

3. 基础调用

from scripts.video_extractor import VideoExtractor
import vertexai
from vertexai.generative_models import GenerativeModel

vertexai.init(project="your-project-id", location="us-central1")
gemini_model = GenerativeModel("gemini-1.5-flash")
extractor = VideoExtractor(gemini_model=gemini_model)
result = extractor.extract_content("/path/to/video.mp4")

可通过 extract_smart_frames() 单独提取帧，或传入图片路径分析单张图像。

输入与输出

见下方输入与输出表格。

项目	内容
输入	本地视频文件路径（支持MP4/MOV/AVI等常见格式）；Google Cloud项目配置；服务账号JSON密钥
输出	结构化数据对象：duration（时长）、scene_timeline（场景列表）、text_timeline（文字时间线）、transcript（完整转录）、thumbnail_url（缩略图路径）
适用人群	需要批量解析广告素材的创意团队；进行竞品视频分析的市场研究人员；审核广告合规性的运营人员
不包含	视频剪辑或重新编码功能；第三方云平台（AWS/Azure）支持；无需联网的离线运行模式

风险提示

需有效 Google Cloud 项目及计费账号，API 调用产生费用
大文件处理可能超出内存限制，建议分片或压缩
OCR 识别准确率受画面清晰度、字体复杂度影响
音频转录质量取决于背景噪音与口音
服务账号密钥需妥善保管，避免泄露

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/fortytwode/meta-video-ad-analyzer/SKILL.md
来源类型：GitHub 开源仓库

数据统计

暂无评论

暂无评论...

视频广告内容提取

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

文档转Markdown

本地语音合成

本地语音转文字

YouTube字幕提取

MiniMax语音合成

YouTube视频摘要

本地音频转文字

视频字幕生成

暂无评论

标签云