网页内容提取

3小时前更新 1 00
网页内容提取网页内容提取
网页内容提取

技能简介

Jina Reader通过Jina AI Reader API实现网页内容提取,支持三种工作模式:读取URL转换为Markdown、联网搜索获取完整内容、对陈述进行事实核查。请求经由Jina基础设施转发,避免暴露服务器真实IP。

能做什么

  • 将任意网页URL转换为干净的Markdown格式
  • 执行网络搜索并返回前5条结果的完整正文
  • 对特定陈述进行事实核查与验证
  • 通过CSS选择器提取页面指定区域
  • 使用地理代理访问区域限制内容
  • 输出格式支持Markdown、HTML、纯文本或截图

使用说明

安装依赖

本技能需要系统已安装curljq。请确保执行环境满足此要求。

配置API密钥

export JINA_API_KEY="jina_..."

免费额度提供1000万token,无需注册即可使用。密钥获取地址:https://jina.ai/reader/

基础用法

读取单个网页:

{baseDir}/scripts/reader.sh "https://example.com/article"

搜索模式(返回前5条结果及完整内容):

{baseDir}/scripts/reader.sh --mode search "latest AI news 2025"

事实核查模式:

{baseDir}/scripts/reader.sh --mode ground "OpenAI was founded in 2015"

常用选项

  • --mode:read/search/ground,默认read
  • --selector:CSS选择器提取特定区域
  • --remove:移除指定元素(如nav,footer,.ads)
  • --proxy:国家代码代理(br、us等)
  • --format:输出格式markdown/html/text/screenshot
  • --json:原始JSON输出

输入与输出

见下方输入与输出表格。

项目内容
输入URL字符串或搜索关键词;模式参数(–mode);可选CSS选择器、代理设置、输出格式等
输出清洗后的网页正文(Markdown/HTML/文本)、搜索结果集、事实核查报告、或JSON原始数据
适用人群需要自动化网页内容提取的开发者、构建RAG知识库的技术团队、进行网络信息验证的研究人员
不包含分布式爬虫调度、验证码破解、登录态保持、自定义JavaScript执行环境

 

风险提示

  • API调用按页或按token计费,高频使用需关注成本
  • Ground模式单次请求约30秒延迟,不适合实时场景
  • 依赖第三方服务可用性,Jina服务中断将影响功能
  • 部分网站可能阻止自动化访问,提取结果可能不完整
  • 免费额度用尽后需付费,未配置密钥将导致调用失败

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/ericsantos/jina-reader/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...