网页数据提取

2小时前更新 2 00
网页数据提取网页数据提取
网页数据提取

技能简介

Tabstack Extractor 通过 Tabstack API 从网站提取结构化数据,支持基于 JSON Schema 的数据抽取和 Markdown 格式转换。

能做什么

  • 将任意网页转换为干净的 Markdown 文本
  • 按自定义 JSON Schema 提取结构化数据
  • 批量处理多个 URL
  • 内置重试机制和缓存功能
  • 提供职位、新闻、商品等预设模板

使用说明

1. 安装 Babashka

curl -s https://raw.githubusercontent.com/babashka/babashka/master/install | bash

2. 配置 API Key

export TABSTACK_API_KEY="your_api_key_here"

或在 ~/.config/tabstack/config.edn 写入 {:api-key "your_api_key_here"}

3. 测试连接

bb scripts/tabstack.clj test

4. 提取 Markdown

bb scripts/tabstack.clj markdown "https://example.com"

5. 提取 JSON(需准备 schema 文件)

bb scripts/tabstack.clj json "https://example.com" references/simple_article.json

6. 高级用法

# 带重试
bb scripts/tabstack.clj json-retry "URL" schema.json

# 带缓存(24小时)
bb scripts/tabstack.clj json-cache "URL" schema.json

# 批量处理
bb scripts/tabstack.clj batch urls.txt schema.json

输入与输出

见下方输入与输出表格。

项目内容
输入目标网页URL;JSON Schema 定义文件(可选);TABSTACK_API_KEY 环境变量
输出Markdown 格式网页正文;符合 Schema 的 JSON 结构化数据;批量任务执行报告
适用人群需要自动化采集网页数据的开发者、数据分析师、研究人员
不包含免费无限制的 API 调用;自动破解反爬机制;图形化操作界面

 

风险提示

  • 需自行申请 Tabstack API Key
  • 复杂页面可能需要调整 Schema 匹配结构
  • 频繁请求可能触发目标站点限流
  • 部分网站有反爬机制,需配合浏览器工具使用

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/noblepayne/tabstack-extractor/SKILL.md
来源类型:开源社区技能

数据统计

相关导航

暂无评论

none
暂无评论...