Firecrawl网页抓取

1小时前更新 1 00
Firecrawl网页抓取Firecrawl网页抓取
Firecrawl网页抓取

技能简介

Firecrawl CLI 是一款命令行工具,用于网页抓取、网站爬取和网络搜索。可将任意网页转换为干净的 Markdown 格式,支持 JavaScript 渲染,自动绕过常见拦截机制,返回结构化数据。

业务背景

Firecrawl 帮助业务人员快速获取网页信息,无需技术背景即可将任意网站内容转为结构化文档。适用于竞品监控、行业研究、客户信息采集等场景,自动处理 JavaScript 渲染和反爬机制,节省手动复制粘贴的时间成本,让团队专注分析而非数据收集。

落地案例:市场团队需要追踪竞品官网的产品更新动态。通过 Firecrawl 设置目标网址和监控频率,系统自动抓取页面内容并输出 Markdown 格式,团队成员直接阅读整理后的文档。若需扩展研究范围,可输入关键词执行网络搜索,按时间或地域筛选结果,批量获取行业资讯用于趋势分析。

能做什么

  • 抓取单个网页或整站内容,输出 Markdown/HTML/JSON
  • 执行网络搜索,可选同时抓取搜索结果详情
  • 映射网站 URL 结构,生成站点地图
  • 按时间、地域、来源类型过滤搜索结果
  • 监控内容变化,支持研究分析与竞品情报收集

使用说明

1. 安装

npm install -g firecrawl-cli

2. 验证状态

firecrawl --status

确认 API Key 认证状态、并发额度(默认100并行)及剩余积分。

3. 登录认证(如未认证)

firecrawl login --browser

4. 创建输出目录

mkdir .firecrawl
echo ".firecrawl/" >> .gitignore

5. 常用操作

网络搜索:

firecrawl search "查询词" -o .firecrawl/search-result.json --json

抓取网页:

firecrawl scrape https://example.com -o .firecrawl/page.md

搜索并抓取详情:

firecrawl search "教程" --scrape -o .firecrawl/tutorials.json --json

高级过滤(按时间/地域/类别):

firecrawl search "AI新闻" --tbs qdr:w --country CN --limit 20 -o .firecrawl/news.json --json

输入与输出

见下方输入与输出表格。

项目内容
输入URL/搜索词、API密钥、输出路径、格式选项、过滤条件、并发参数
输出Markdown/HTML/JSON内容、链接列表、搜索元数据、站点映射、状态报告
适用人群内容分析师、技术写作者、产品团队、研究人员、数据采集开发者
不包含可视化界面、无限免费额度、全反爬绕过、代理池管理、数据清洗逻辑

 

风险提示

  • 需配置 FIRECRAWL_API_KEY,积分消耗完后服务中断
  • 并发请求接近上限时可能触发限流,建议预留缓冲
  • 部分网站有反爬机制,抓取失败率存在不确定性
  • JavaScript 渲染页面需设置等待时间,增加单次请求耗时
  • 输出文件建议统一存放于 .firecrawl/ 目录,避免污染工作区

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/leonardogrig/firecrawl-skills/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...