网页内容提取

3小时前更新 1 00
网页内容提取网页内容提取
网页内容提取

技能简介

本技能调用 Tavily 的提取 API,从特定 URL 中抓取并提取网页正文内容,适用于需要快速获取网页核心信息的场景。

能做什么

  • 从单个或多个 URL 提取网页正文
  • 自动过滤广告、导航栏等无关元素
  • 返回结构化的纯文本或 Markdown 格式内容
  • 支持批量 URL 处理

使用说明

安装依赖

pip install tavily-python

配置 API 密钥

export TAVILY_API_KEY="your_api_key_here"

基础用法

from tavily import TavilyClient
client = TavilyClient()
result = client.extract(urls=["https://example.com/article"])

输入与输出

见下方输入与输出表格。

项目内容
输入目标URL列表;可选格式参数;Tavily API密钥
输出网页正文内容;页面元数据;处理状态信息
适用人群安全研究、内容审核、数据分析、自动化开发相关人员
不包含付费墙突破、JS动态渲染、非HTML文件提取

 

风险提示

  • 需妥善保管 Tavily API 密钥,避免泄露
  • 受目标网站反爬策略影响,部分页面可能提取失败
  • 提取结果受网页结构变化影响,需定期验证
  • 注意遵守目标网站的 robots.txt 及使用条款

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/barneyjm/extract/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...