TinyFish网页抓取

2小时前更新 1 00
TinyFish网页抓取TinyFish网页抓取
TinyFish网页抓取

技能简介

TinyFish Web Agent 是一个基于自然语言的网页数据提取服务,通过简单的 API 调用即可实现网站内容抓取、结构化数据提取和浏览器自动化操作。支持处理受机器人保护的站点,并提供隐身模式和代理配置选项。

业务背景

TinyFish 让业务人员无需编写复杂爬虫代码,即可通过自然语言指令快速获取网页数据。无论是竞品价格监控、市场情报收集还是内容聚合,都能将原本需要技术团队数天开发的工作缩短至几分钟,大幅降低数据采集门槛和人力成本。

落地案例:某电商运营团队需要每日追踪竞品平台的商品价格变动。他们使用 TinyFish 配置抓取任务:输入目标商品列表页 URL,用自然语言描述"提取每个商品的名称、现价和库存状态,输出 JSON"。系统自动绕过基础反爬机制,批量返回结构化数据,运营人员直接导入分析表格即可生成比价报告,无需依赖开发排期。

能做什么

  • 从任意网页提取结构化数据并输出为 JSON 格式
  • 绕过基础反爬虫机制访问受保护站点
  • 批量提取列表型数据(商品、文章、价格等)
  • 通过代理切换国家地区获取本地化内容
  • 并行发起多个独立抓取任务提升效率

使用说明

第一步:获取 API 密钥

访问 https://agent.tinyfish.ai/api-keys 注册账号并创建 API 密钥。

第二步:配置环境变量

在终端执行以下命令(推荐方式):

export TINYFISH_API_KEY="your-key-here"

或在 Claude Code 的本地设置文件中添加:

{
  "env": {
    "TINYFISH_API_KEY": "your-key-here"
  }
}

第三步:验证密钥可用性

每次调用前检查环境变量:

[ -n "$TINYFISH_API_KEY" ] && echo "TINYFISH_API_KEY is set" || echo "TINYFISH_API_KEY is NOT set"

若未设置,必须停止并提示用户补充密钥,不可降级使用其他工具。

第四步:执行数据提取

基础抓取示例:

curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
  -H "X-API-Key: $TINYFISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "goal": "Extract product info as JSON: {\"name\": str, \"price\": str, \"in_stock\": bool}"
  }'

隐身模式(用于反爬虫站点):

curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
  -H "X-API-Key: $TINYFISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://protected-site.com",
    "goal": "Extract data as JSON: {\"title\": str}",
    "browser_profile": "stealth"
  }'

代理配置(指定国家):

curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
  -H "X-API-Key: $TINYFISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://geo-restricted-site.com",
    "goal": "Extract pricing as JSON",
    "browser_profile": "stealth",
    "proxy_config": {"enabled": true, "country_code": "US"}
  }'

第五步:解析响应

API 返回 SSE 流格式,查找 type == "COMPLETE"status == "COMPLETED" 的事件,提取数据位于 resultJson 字段。

输入与输出

见下方输入与输出表格。

项目内容
输入目标网页URL;提取目标描述(自然语言+期望JSON结构);可选参数:browser_profile(stealth)、proxy_config(国家代码)
输出SSE流式响应,最终事件包含resultJson字段的结构化数据
适用人群需程序化抓取网页数据的开发者、数据分析师、自动化测试人员
不包含图形界面、数据库存储、定时调度、高级验证码识别

 

风险提示

  • API 密钥泄露可能导致账户被盗用,请勿硬编码在代码中
  • 频繁抓取同一站点可能触发封禁,建议合理控制请求频率
  • 隐身模式和代理无法保证突破所有反爬虫机制
  • SSE 流需正确处理连接中断和超时情况
  • 目标网站的 robots.txt 和服务条款限制需自行评估合规性

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/simantak-dabhade/tinyfish-web-agent/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...