无障碍辅助工具包
残障人士语音优先自动
AnyCrawl技能为OpenClaw提供AnyCrawl API接入能力,支持单页抓取、Google搜索和整站异步爬取三种核心功能。通过多引擎选择(Cheerio/Playwright/Puppeteer)和灵活的输出格式配置,将网页内容转换为LLM可直接处理的结构化数据。
AnyCrawl帮助业务人员快速获取互联网公开信息,无需技术背景即可将网页内容转化为可用的结构化数据。无论是竞品价格监控、行业资讯收集还是客户背景调研,都能通过简单配置完成自动化采集,让市场分析、商业决策有据可依。
落地案例:市场专员需要监测竞争对手的产品定价。使用AnyCrawl,只需输入竞品网站URL并配置提取字段(产品名称、价格、促销信息),系统自动抓取页面并返回标准化JSON数据。若需批量获取多品牌信息,可通过Google搜索功能先定位目标站点,再启动整站爬取任务,后台异步完成后即可导出完整数据集用于比价分析。
步骤1:配置API密钥
方式一(推荐):环境变量
export ANYCRAWL_API_KEY="your-api-key"
echo 'export ANYCRAWL_API_KEY="your-api-key"' >> ~/.bashrc
source ~/.bashrc
方式二:OpenClaw网关配置
openclaw config.patch --set ANYCRAWL_API_KEY="your-api-key"
获取API密钥:https://anycrawl.dev
步骤2:调用功能函数
基础网页抓取:
anycrawl_scrape({ url: "https://example.com" })
搜索并自动抓取结果:
anycrawl_search({
query: "AI工具评测",
limit: 5,
scrape_options: { engine: "cheerio", formats: ["markdown"] }
})
启动整站爬取:
anycrawl_crawl_start({
url: "https://docs.example.com",
max_depth: 5,
limit: 50
})
查询爬取状态:
anycrawl_crawl_status({ job_id: "xxx" })
anycrawl_crawl_results({ job_id: "xxx", skip: 0 })
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 目标URL、搜索查询词、引擎类型(cheerio/playwright/puppeteer)、输出格式、超时设置、CSS选择器、路径过滤规则、API密钥 |
| 输出 | Markdown/HTML/文本/JSON内容、搜索结果列表、网页截图、异步爬取任务ID及状态、分页结果数据 |
| 适用人群 | 需网页数据采集的开发者、构建知识库的工程师、自动化信息聚合场景的使用者 |
| 不包含 | 免费API额度、内置代理池、自动绕过高级反爬机制、可视化操作界面 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/techlaai/anycrawl/SKILL.md
来源类型:GitHub仓库