网页数据提取工具

1小时前更新 3 00

抓取网页、截图与AI

收录时间:
2026-02-26
网页数据提取工具网页数据提取工具
网页数据提取工具

技能简介

OpenGraph.io 提供网页数据提取、页面截图和 AI 图像生成服务,支持从任意 URL 获取结构化元数据、渲染后的 HTML 内容或可视化截图。

业务背景

市场、运营和产品团队常需快速获取竞品网页信息、生成社交分享素材或批量采集公开数据。该工具通过API直接抓取任意网页的结构化元数据、可视化截图及核心内容,省去人工复制粘贴的繁琐操作,让内容调研、社媒运营和数据分析效率大幅提升。

落地案例:某电商运营团队每周需监控50个竞品店铺的促销页面。他们调用网页数据提取工具,批量获取商品标题、价格和主图链接,同时截取页面快照存档。遇到需要快速制作活动海报时,团队用AI图像生成功能输入英文提示词,直接产出符合品牌规范的社交卡片,无需设计排期。

能做什么

  • 提取网页 OpenGraph 标签与链接预览数据
  • 捕获网页全页或指定尺寸截图
  • 抓取原始 HTML 或特定元素(标题、段落等)
  • 向 AI 提问获取网页内容摘要(付费功能)
  • 生成技术图表、应用图标、社交卡片、二维码等 AI 图像

使用说明

1. 注册获取 API 密钥

访问 dashboard.opengraph.io 注册账号,免费版每月提供 100 次站点/截图/抓取请求及 4 次图像生成额度。

2. 安装与配置

环境变量方式:

export OPENGRAPH_APP_ID="YOUR_APP_ID"

Clawdbot 配置文件方式(~/.clawdbot/clawdbot.json):

{
  "skills": {
    "entries": {
      "opengraph-io": {
        "apiKey": "YOUR_APP_ID"
      }
    }
  }
}

可选 MCP 服务器安装:

npm install -g opengraph-io-mcp

3. 调用示例

提取 OG 标签:

curl -s "https://opengraph.io/api/1.1/site/$(echo -n 'https://example.com' | jq -sRr @uri)?app_id=${OPENGRAPH_APP_ID}"

捕获截图(尺寸可选 sm/md/lg/xl):

curl -s "https://opengraph.io/api/1.1/screenshot/$(echo -n 'https://example.com' | jq -sRr @uri)?app_id=${OPENGRAPH_APP_ID}&dimensions=lg"

抓取 HTML(支持代理绕过地理限制):

curl -s "https://opengraph.io/api/1.1/scrape/$(echo -n 'https://example.com' | jq -sRr @uri)?app_id=${OPENGRAPH_APP_ID}&use_proxy=true"

提取特定元素:

curl -s "https://opengraph.io/api/1.1/extract/$(echo -n 'https://example.com' | jq -sRr @uri)?app_id=${OPENGRAPH_APP_ID}&html_elements=h1,h2,p"

输入与输出

见下方输入与输出表格。

项目内容
输入目标网页 URL;API 密钥 OPENGRAPH_APP_ID;可选参数包括尺寸规格(sm/md/lg/xl)、代理开关(use_proxy)、HTML元素选择器(html_elements)、图像生成提示词及类型(kind)
输出结构化元数据JSON(含标题/描述/图片等);截图文件URL;渲染后的完整HTML;提取的指定DOM元素内容;AI生成的图像文件URL
适用人群需批量提取网页数据的开发者、构建链接预览功能的产品团队、进行网页存档的运营人员、需要快速生成社交素材的设计师、基于网页内容做知识整理的研究者
不包含可视化图形操作界面;突破反爬机制的强制抓取能力;本地离线文件的处理;持续实时监控告警;复杂的多步骤自动化流程编排

 

风险提示

  • 免费版每月限 100 次站点/截图/抓取请求,图像生成限 4 次
  • AI 查询功能需付费订阅
  • 部分网站可能屏蔽自动化访问,建议启用 use_proxy 参数
  • 图像生成依赖英文提示词,复杂设计需详细描述
  • API 密钥需妥善保管,避免在公开代码库中暴露

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/primeobsession/opengraph-io-skill/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...