网页爬取与搜索网页爬取与搜索
网页爬取与搜索

技能简介

AnyCrawl技能为OpenClaw提供AnyCrawl API接入能力,支持单页抓取、Google搜索和整站异步爬取三种核心功能。通过多引擎选择(Cheerio/Playwright/Puppeteer)和灵活的输出格式配置,将网页内容转换为LLM可直接处理的结构化数据

业务背景

AnyCrawl帮助业务人员快速获取互联网公开信息,无需技术背景即可将网页内容转化为可用的结构化数据。无论是竞品价格监控、行业资讯收集还是客户背景调研,都能通过简单配置完成自动化采集,让市场分析、商业决策有据可依。

落地案例:市场专员需要监测竞争对手的产品定价。使用AnyCrawl,只需输入竞品网站URL并配置提取字段(产品名称、价格、促销信息),系统自动抓取页面并返回标准化JSON数据。若需批量获取多品牌信息,可通过Google搜索功能先定位目标站点,再启动整站爬取任务,后台异步完成后即可导出完整数据集用于比价分析。

能做什么

  • 抓取单个网页并提取为Markdown、HTML、纯文本或JSON格式
  • 执行Google搜索并获取结构化结果列表
  • 启动整站异步爬取任务,支持深度控制和路径过滤
  • 对动态渲染页面(SPA)使用浏览器引擎完整抓取
  • 按自定义Schema提取结构化字段(如产品名称、价格等)

使用说明

步骤1:配置API密钥

方式一(推荐):环境变量

export ANYCRAWL_API_KEY="your-api-key"
echo 'export ANYCRAWL_API_KEY="your-api-key"' >> ~/.bashrc
source ~/.bashrc

方式二:OpenClaw网关配置

openclaw config.patch --set ANYCRAWL_API_KEY="your-api-key"

获取API密钥:https://anycrawl.dev

步骤2:调用功能函数

基础网页抓取

anycrawl_scrape({ url: "https://example.com" })

搜索并自动抓取结果:

anycrawl_search({
  query: "AI工具评测",
  limit: 5,
  scrape_options: { engine: "cheerio", formats: ["markdown"] }
})

启动整站爬取:

anycrawl_crawl_start({
  url: "https://docs.example.com",
  max_depth: 5,
  limit: 50
})

查询爬取状态:

anycrawl_crawl_status({ job_id: "xxx" })
anycrawl_crawl_results({ job_id: "xxx", skip: 0 })

输入与输出

见下方输入与输出表格。

项目内容
输入目标URL、搜索查询词、引擎类型(cheerio/playwright/puppeteer)、输出格式、超时设置、CSS选择器、路径过滤规则、API密钥
输出Markdown/HTML/文本/JSON内容、搜索结果列表、网页截图、异步爬取任务ID及状态、分页结果数据
适用人群需网页数据采集的开发者、构建知识库的工程师、自动化信息聚合场景的使用者
不包含免费API额度、内置代理池、自动绕过高级反爬机制、可视化操作界面

 

风险提示

  • 需妥善保管API密钥,避免泄露导致额度被盗用
  • 爬取频率受AnyCrawl服务限制,超频可能触发限流
  • 部分网站存在反爬机制,浏览器引擎(Playwright/Puppeteer)可降低被封概率但消耗更多资源
  • 整站爬取为异步任务,需轮询状态接口获取结果,非即时返回
  • 遵守目标网站的robots.txt协议及当地数据抓取法规

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/techlaai/anycrawl/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...