Firecrawl网页抓取

5天前更新 2 00
Firecrawl网页抓取Firecrawl网页抓取
Firecrawl网页抓取

技能简介

Firecrawler 是一个基于 Firecrawl API 的网页抓取与爬取工具,支持将任意网站转换为结构化数据,适用于数据采集、内容监控等场景。

能做什么

  • 抓取单个网页并提取正文内容
  • 递归爬取整个网站的所有可访问页面
  • 将网页内容转换为 Markdown 或结构化 JSON
  • 绕过常见反爬机制获取页面数据

使用说明

安装依赖

pip install firecrawl-py

配置 API Key

在环境变量中设置 FIRECRAWL_API_KEY,或在代码中直接传入。

基础用法示例

from firecrawl import FirecrawlApp

app = FirecrawlApp(api_key="your-api-key")

# 抓取单页
result = app.scrape_url("https://example.com")
print(result["markdown"])

# 爬取整站
crawl_result = app.crawl_url("https://example.com", params={"limit": 100})
print(crawl_result)

输入与输出

见下方输入与输出表格。

项目内容
输入目标网址(URL)、爬取参数(深度限制、输出格式)、Firecrawl API 密钥
输出Markdown 正文、结构化 JSON、爬取状态报告
适用人群数据工程师、内容运营、市场研究人员、AI 应用开发者
不包含代理管理、浏览器指纹定制、图形化界面、数据存储服务

 

风险提示

  • 需遵守目标网站的 robots.txt 及使用条款
  • 高频请求可能导致 IP 被封禁
  • 部分网站有法律限制,禁止未经授权抓取
  • API 调用按量计费,注意控制成本

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/andrewdmwalker/firecrawler/SKILL.md
来源类型:GitHub 开源技能

数据统计

相关导航

暂无评论

none
暂无评论...