TinyFish网页抓取

2小时前更新 1 00

自然语言驱动网页数据

收录时间：

2026-02-26

手机查看

TinyFish网页抓取

技能简介

TinyFish Web Agent 是一个基于自然语言的网页数据提取服务，通过简单的 API 调用即可实现网站内容抓取、结构化数据提取和浏览器自动化操作。支持处理受机器人保护的站点，并提供隐身模式和代理配置选项。

业务背景

TinyFish 让业务人员无需编写复杂爬虫代码，即可通过自然语言指令快速获取网页数据。无论是竞品价格监控、市场情报收集还是内容聚合，都能将原本需要技术团队数天开发的工作缩短至几分钟，大幅降低数据采集门槛和人力成本。

落地案例：某电商运营团队需要每日追踪竞品平台的商品价格变动。他们使用 TinyFish 配置抓取任务：输入目标商品列表页 URL，用自然语言描述"提取每个商品的名称、现价和库存状态，输出 JSON"。系统自动绕过基础反爬机制，批量返回结构化数据，运营人员直接导入分析表格即可生成比价报告，无需依赖开发排期。

能做什么

从任意网页提取结构化数据并输出为 JSON 格式
绕过基础反爬虫机制访问受保护站点
批量提取列表型数据（商品、文章、价格等）
通过代理切换国家地区获取本地化内容
并行发起多个独立抓取任务提升效率

使用说明

第一步：获取 API 密钥

访问 https://agent.tinyfish.ai/api-keys 注册账号并创建 API 密钥。

第二步：配置环境变量

在终端执行以下命令（推荐方式）：

export TINYFISH_API_KEY="your-key-here"

或在 Claude Code 的本地设置文件中添加：

{
  "env": {
    "TINYFISH_API_KEY": "your-key-here"
  }
}

第三步：验证密钥可用性

每次调用前检查环境变量：

[ -n "$TINYFISH_API_KEY" ] && echo "TINYFISH_API_KEY is set" || echo "TINYFISH_API_KEY is NOT set"

若未设置，必须停止并提示用户补充密钥，不可降级使用其他工具。

第四步：执行数据提取

基础抓取示例：

curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
  -H "X-API-Key: $TINYFISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "goal": "Extract product info as JSON: {\"name\": str, \"price\": str, \"in_stock\": bool}"
  }'

隐身模式（用于反爬虫站点）：

curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
  -H "X-API-Key: $TINYFISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://protected-site.com",
    "goal": "Extract data as JSON: {\"title\": str}",
    "browser_profile": "stealth"
  }'

代理配置（指定国家）：

curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
  -H "X-API-Key: $TINYFISH_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://geo-restricted-site.com",
    "goal": "Extract pricing as JSON",
    "browser_profile": "stealth",
    "proxy_config": {"enabled": true, "country_code": "US"}
  }'

第五步：解析响应

API 返回 SSE 流格式，查找 type == "COMPLETE" 且 status == "COMPLETED" 的事件，提取数据位于 resultJson 字段。

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标网页URL；提取目标描述（自然语言+期望JSON结构）；可选参数：browser_profile（stealth）、proxy_config（国家代码）
输出	SSE流式响应，最终事件包含resultJson字段的结构化数据
适用人群	需程序化抓取网页数据的开发者、数据分析师、自动化测试人员
不包含	图形界面、数据库存储、定时调度、高级验证码识别

风险提示

API 密钥泄露可能导致账户被盗用，请勿硬编码在代码中
频繁抓取同一站点可能触发封禁，建议合理控制请求频率
隐身模式和代理无法保证突破所有反爬虫机制
SSE 流需正确处理连接中断和超时情况
目标网站的 robots.txt 和服务条款限制需自行评估合规性

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/simantak-dabhade/tinyfish-web-agent/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

TinyFish网页抓取

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

ImageRouter图像生成

耶和华见证人每日经文

X/Twitter浏览器操控

新闻API搜索

浏览器自动化测试

网页转Markdown

文件守护卫士

简历生成助手

暂无评论

标签云