技能简介
TinyFish Web Agent 是一个基于自然语言的网页数据提取服务,通过简单的 API 调用即可实现网站内容抓取、结构化数据提取和浏览器自动化操作。支持处理受机器人保护的站点,并提供隐身模式和代理配置选项。
业务背景
TinyFish 让业务人员无需编写复杂爬虫代码,即可通过自然语言指令快速获取网页数据。无论是竞品价格监控、市场情报收集还是内容聚合,都能将原本需要技术团队数天开发的工作缩短至几分钟,大幅降低数据采集门槛和人力成本。
落地案例:某电商运营团队需要每日追踪竞品平台的商品价格变动。他们使用 TinyFish 配置抓取任务:输入目标商品列表页 URL,用自然语言描述"提取每个商品的名称、现价和库存状态,输出 JSON"。系统自动绕过基础反爬机制,批量返回结构化数据,运营人员直接导入分析表格即可生成比价报告,无需依赖开发排期。
能做什么
- 从任意网页提取结构化数据并输出为 JSON 格式
- 绕过基础反爬虫机制访问受保护站点
- 批量提取列表型数据(商品、文章、价格等)
- 通过代理切换国家地区获取本地化内容
- 并行发起多个独立抓取任务提升效率
使用说明
第一步:获取 API 密钥
访问 https://agent.tinyfish.ai/api-keys 注册账号并创建 API 密钥。
第二步:配置环境变量
在终端执行以下命令(推荐方式):
export TINYFISH_API_KEY="your-key-here"
或在 Claude Code 的本地设置文件中添加:
{
"env": {
"TINYFISH_API_KEY": "your-key-here"
}
}
第三步:验证密钥可用性
每次调用前检查环境变量:
[ -n "$TINYFISH_API_KEY" ] && echo "TINYFISH_API_KEY is set" || echo "TINYFISH_API_KEY is NOT set"
若未设置,必须停止并提示用户补充密钥,不可降级使用其他工具。
第四步:执行数据提取
基础抓取示例:
curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
-H "X-API-Key: $TINYFISH_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://example.com",
"goal": "Extract product info as JSON: {\"name\": str, \"price\": str, \"in_stock\": bool}"
}'
隐身模式(用于反爬虫站点):
curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
-H "X-API-Key: $TINYFISH_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://protected-site.com",
"goal": "Extract data as JSON: {\"title\": str}",
"browser_profile": "stealth"
}'
代理配置(指定国家):
curl -N -s -X POST "https://agent.tinyfish.ai/v1/automation/run-sse" \
-H "X-API-Key: $TINYFISH_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"url": "https://geo-restricted-site.com",
"goal": "Extract pricing as JSON",
"browser_profile": "stealth",
"proxy_config": {"enabled": true, "country_code": "US"}
}'
第五步:解析响应
API 返回 SSE 流格式,查找 type == "COMPLETE" 且 status == "COMPLETED" 的事件,提取数据位于 resultJson 字段。
输入与输出
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 目标网页URL;提取目标描述(自然语言+期望JSON结构);可选参数:browser_profile(stealth)、proxy_config(国家代码) |
| 输出 | SSE流式响应,最终事件包含resultJson字段的结构化数据 |
| 适用人群 | 需程序化抓取网页数据的开发者、数据分析师、自动化测试人员 |
| 不包含 | 图形界面、数据库存储、定时调度、高级验证码识别 |
风险提示
- API 密钥泄露可能导致账户被盗用,请勿硬编码在代码中
- 频繁抓取同一站点可能触发封禁,建议合理控制请求频率
- 隐身模式和代理无法保证突破所有反爬虫机制
- SSE 流需正确处理连接中断和超时情况
- 目标网站的 robots.txt 和服务条款限制需自行评估合规性
来源信息
原始链接:https://github.com/openclaw/skills/tree/main/skills/simantak-dabhade/tinyfish-web-agent/SKILL.md
来源类型:GitHub 仓库
