网页数据提取

2小时前更新 2 00

结构化抓取网页内容

收录时间：

2026-02-26

手机查看

网页数据提取

技能简介

Tabstack Extractor 通过 Tabstack API 从网站提取结构化数据，支持基于 JSON Schema 的数据抽取和 Markdown 格式转换。

能做什么

将任意网页转换为干净的 Markdown 文本
按自定义 JSON Schema 提取结构化数据
批量处理多个 URL
内置重试机制和缓存功能
提供职位、新闻、商品等预设模板

使用说明

1. 安装 Babashka

curl -s https://raw.githubusercontent.com/babashka/babashka/master/install | bash

2. 配置 API Key

export TABSTACK_API_KEY="your_api_key_here"

或在 ~/.config/tabstack/config.edn 写入 {:api-key "your_api_key_here"}

3. 测试连接

bb scripts/tabstack.clj test

4. 提取 Markdown

bb scripts/tabstack.clj markdown "https://example.com"

5. 提取 JSON（需准备 schema 文件）

bb scripts/tabstack.clj json "https://example.com" references/simple_article.json

6. 高级用法

# 带重试
bb scripts/tabstack.clj json-retry "URL" schema.json

# 带缓存（24小时）
bb scripts/tabstack.clj json-cache "URL" schema.json

# 批量处理
bb scripts/tabstack.clj batch urls.txt schema.json

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标网页URL；JSON Schema 定义文件（可选）；TABSTACK_API_KEY 环境变量
输出	Markdown 格式网页正文；符合 Schema 的 JSON 结构化数据；批量任务执行报告
适用人群	需要自动化采集网页数据的开发者、数据分析师、研究人员
不包含	免费无限制的 API 调用；自动破解反爬机制；图形化操作界面

风险提示

需自行申请 Tabstack API Key
复杂页面可能需要调整 Schema 匹配结构
频繁请求可能触发目标站点限流
部分网站有反爬机制，需配合浏览器工具使用

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/noblepayne/tabstack-extractor/SKILL.md
来源类型：开源社区技能

数据统计

暂无评论

暂无评论...

网页数据提取

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

AI演示文稿生成

Moltpad文学协作

Glance仪表板管理

智能记忆压缩

飞书原生表情

AI智能体问答社区

AI代理社交网络

Firecrawl网页抓取

暂无评论

标签云