Firecrawl网页抓取Firecrawl网页抓取
Firecrawl网页抓取

技能简介

Firecrawl-search 是基于 Firecrawl API 的网页搜索与抓取工具,支持对普通网页及 JavaScript 密集型页面进行抓取、整站爬取和结构化数据提取

业务背景

Firecrawl 帮助企业快速获取公开网络情报,无需技术团队开发爬虫即可采集竞品动态、行业资讯或客户线索。支持 JavaScript 渲染页面抓取,能获取现代网站完整内容,整站爬取功能可批量沉淀外部数据资产,结构化提取让非技术人员也能直接获得可用数据表格。

落地案例:市场部监测竞品官网:输入目标品牌官网 URL,设置最大抓取 30 个页面,自动爬取产品更新与价格信息,输出结构化表格供分析对比;销售团队挖掘潜在客户:输入"智能制造 华东 联系方式"等关键词,获取搜索结果列表中的企业官网链接,再定向抓取关键页面提取联系信息。

能做什么

  • 执行网络关键词搜索并获取结果
  • 抓取单个网页内容(含 JS 渲染页面)
  • 爬取整个网站的多页面数据
  • 从网页中提取结构化数据

使用说明

1. 安装依赖

需先配置 Firecrawl API 密钥:

export FIRECRAWL_API_KEY=fc-xxxxxxxxxx

或在项目根目录创建 .env 文件写入该变量。

2. 执行搜索

firecrawl_search "your search query" --limit 10

3. 单页抓取

firecrawl_scrape "https://example.com"

4. 整站爬取

firecrawl_crawl "https://example.com" --max-pages 50

详细 API 参数见 references/api.md

输入与输出

见下方输入与输出表格。

项目内容
输入搜索关键词、目标 URL、最大页面数限制、结果数量限制
输出网页 HTML 内容、结构化提取数据、搜索结果列表、爬取页面清单
适用人群数据分析师、研究人员、网站运营人员、市场情报团队
不包含API 订阅费用、代理 IP 服务、数据存储后端、可视化界面

 

风险提示

  • 需妥善保管 FIRECRAWL_API_KEY,避免泄露
  • 大规模爬取可能触发目标站点的访问频率限制
  • 抓取受版权保护的内容需遵守相关法规
  • JS 密集型页面抓取耗时较长,建议设置超时控制

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/ashwingupy/firecrawl-search/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...