Firecrawl网页抓取

1小时前更新 1 00

命令行网页爬取与搜索

收录时间：

2026-02-26

手机查看

Firecrawl网页抓取

技能简介

Firecrawl CLI 是一款命令行工具，用于网页抓取、网站爬取和网络搜索。可将任意网页转换为干净的 Markdown 格式，支持 JavaScript 渲染，自动绕过常见拦截机制，返回结构化数据。

业务背景

Firecrawl 帮助业务人员快速获取网页信息，无需技术背景即可将任意网站内容转为结构化文档。适用于竞品监控、行业研究、客户信息采集等场景，自动处理 JavaScript 渲染和反爬机制，节省手动复制粘贴的时间成本，让团队专注分析而非数据收集。

落地案例：市场团队需要追踪竞品官网的产品更新动态。通过 Firecrawl 设置目标网址和监控频率，系统自动抓取页面内容并输出 Markdown 格式，团队成员直接阅读整理后的文档。若需扩展研究范围，可输入关键词执行网络搜索，按时间或地域筛选结果，批量获取行业资讯用于趋势分析。

能做什么

抓取单个网页或整站内容，输出 Markdown/HTML/JSON
执行网络搜索，可选同时抓取搜索结果详情
映射网站 URL 结构，生成站点地图
按时间、地域、来源类型过滤搜索结果
监控内容变化，支持研究分析与竞品情报收集

使用说明

1. 安装

npm install -g firecrawl-cli

2. 验证状态

firecrawl --status

确认 API Key 认证状态、并发额度（默认100并行）及剩余积分。

3. 登录认证（如未认证）

firecrawl login --browser

4. 创建输出目录

mkdir .firecrawl
echo ".firecrawl/" >> .gitignore

5. 常用操作

网络搜索：

firecrawl search "查询词" -o .firecrawl/search-result.json --json

抓取网页：

firecrawl scrape https://example.com -o .firecrawl/page.md

搜索并抓取详情：

firecrawl search "教程" --scrape -o .firecrawl/tutorials.json --json

高级过滤（按时间/地域/类别）：

firecrawl search "AI新闻" --tbs qdr:w --country CN --limit 20 -o .firecrawl/news.json --json

输入与输出

见下方输入与输出表格。

项目	内容
输入	URL/搜索词、API密钥、输出路径、格式选项、过滤条件、并发参数
输出	Markdown/HTML/JSON内容、链接列表、搜索元数据、站点映射、状态报告
适用人群	内容分析师、技术写作者、产品团队、研究人员、数据采集开发者
不包含	可视化界面、无限免费额度、全反爬绕过、代理池管理、数据清洗逻辑

风险提示

需配置 FIRECRAWL_API_KEY，积分消耗完后服务中断
并发请求接近上限时可能触发限流，建议预留缓冲
部分网站有反爬机制，抓取失败率存在不确定性
JavaScript 渲染页面需设置等待时间，增加单次请求耗时
输出文件建议统一存放于 .firecrawl/ 目录，避免污染工作区

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/leonardogrig/firecrawl-skills/SKILL.md
来源类型：GitHub 开源项目

数据统计

暂无评论

暂无评论...

Firecrawl网页抓取

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

无头浏览器自动化

匿名发帖接口

AI社交网络平台

Vector机器人控制

Oracle代码审查

Voyage AI向量工具

Bitwarden CLI管理

地图轻量定位服务

暂无评论

标签云