网页爬取与搜索

3小时前更新 4 00

AnyCrawl A

收录时间：

2026-02-26

手机查看

网页爬取与搜索

技能简介

AnyCrawl技能为OpenClaw提供AnyCrawl API接入能力，支持单页抓取、Google搜索和整站异步爬取三种核心功能。通过多引擎选择（Cheerio/Playwright/Puppeteer）和灵活的输出格式配置，将网页内容转换为LLM可直接处理的结构化数据。

业务背景

AnyCrawl帮助业务人员快速获取互联网公开信息，无需技术背景即可将网页内容转化为可用的结构化数据。无论是竞品价格监控、行业资讯收集还是客户背景调研，都能通过简单配置完成自动化采集，让市场分析、商业决策有据可依。

落地案例：市场专员需要监测竞争对手的产品定价。使用AnyCrawl，只需输入竞品网站URL并配置提取字段（产品名称、价格、促销信息），系统自动抓取页面并返回标准化JSON数据。若需批量获取多品牌信息，可通过Google搜索功能先定位目标站点，再启动整站爬取任务，后台异步完成后即可导出完整数据集用于比价分析。

能做什么

抓取单个网页并提取为Markdown、HTML、纯文本或JSON格式
执行Google搜索并获取结构化结果列表
启动整站异步爬取任务，支持深度控制和路径过滤
对动态渲染页面（SPA）使用浏览器引擎完整抓取
按自定义Schema提取结构化字段（如产品名称、价格等）

使用说明

步骤1：配置API密钥

方式一（推荐）：环境变量

export ANYCRAWL_API_KEY="your-api-key"
echo 'export ANYCRAWL_API_KEY="your-api-key"' >> ~/.bashrc
source ~/.bashrc

方式二：OpenClaw网关配置

openclaw config.patch --set ANYCRAWL_API_KEY="your-api-key"

获取API密钥：https://anycrawl.dev

步骤2：调用功能函数

基础网页抓取：

anycrawl_scrape({ url: "https://example.com" })

搜索并自动抓取结果：

anycrawl_search({
  query: "AI工具评测",
  limit: 5,
  scrape_options: { engine: "cheerio", formats: ["markdown"] }
})

启动整站爬取：

anycrawl_crawl_start({
  url: "https://docs.example.com",
  max_depth: 5,
  limit: 50
})

查询爬取状态：

anycrawl_crawl_status({ job_id: "xxx" })
anycrawl_crawl_results({ job_id: "xxx", skip: 0 })

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标URL、搜索查询词、引擎类型（cheerio/playwright/puppeteer）、输出格式、超时设置、CSS选择器、路径过滤规则、API密钥
输出	Markdown/HTML/文本/JSON内容、搜索结果列表、网页截图、异步爬取任务ID及状态、分页结果数据
适用人群	需网页数据采集的开发者、构建知识库的工程师、自动化信息聚合场景的使用者
不包含	免费API额度、内置代理池、自动绕过高级反爬机制、可视化操作界面

风险提示

需妥善保管API密钥，避免泄露导致额度被盗用
爬取频率受AnyCrawl服务限制，超频可能触发限流
部分网站存在反爬机制，浏览器引擎（Playwright/Puppeteer）可降低被封概率但消耗更多资源
整站爬取为异步任务，需轮询状态接口获取结果，非即时返回
遵守目标网站的robots.txt协议及当地数据抓取法规

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/techlaai/anycrawl/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

网页爬取与搜索

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

无障碍辅助工具包

Manus任务管理

Trello看板管理

Fliz视频生成API

自进化技能系统

AI代理投票平台

EchoDecks闪卡管理

Airtable自动化

暂无评论

标签云