网页内容提取

3小时前更新 1 00

调用Jina AI接

收录时间：

2026-02-26

手机查看

网页内容提取

技能简介

Jina Reader通过Jina AI Reader API实现网页内容提取，支持三种工作模式：读取URL转换为Markdown、联网搜索获取完整内容、对陈述进行事实核查。请求经由Jina基础设施转发，避免暴露服务器真实IP。

能做什么

将任意网页URL转换为干净的Markdown格式
执行网络搜索并返回前5条结果的完整正文
对特定陈述进行事实核查与验证
通过CSS选择器提取页面指定区域
使用地理代理访问区域限制内容
输出格式支持Markdown、HTML、纯文本或截图

使用说明

安装依赖

本技能需要系统已安装curl和jq。请确保执行环境满足此要求。

配置API密钥

export JINA_API_KEY="jina_..."

免费额度提供1000万token，无需注册即可使用。密钥获取地址：https://jina.ai/reader/

基础用法

读取单个网页：

{baseDir}/scripts/reader.sh "https://example.com/article"

搜索模式（返回前5条结果及完整内容）：

{baseDir}/scripts/reader.sh --mode search "latest AI news 2025"

事实核查模式：

{baseDir}/scripts/reader.sh --mode ground "OpenAI was founded in 2015"

常用选项

--mode：read/search/ground，默认read
--selector：CSS选择器提取特定区域
--remove：移除指定元素（如nav,footer,.ads）
--proxy：国家代码代理（br、us等）
--format：输出格式markdown/html/text/screenshot
--json：原始JSON输出

输入与输出

见下方输入与输出表格。

项目	内容
输入	URL字符串或搜索关键词；模式参数(–mode)；可选CSS选择器、代理设置、输出格式等
输出	清洗后的网页正文(Markdown/HTML/文本)、搜索结果集、事实核查报告、或JSON原始数据
适用人群	需要自动化网页内容提取的开发者、构建RAG知识库的技术团队、进行网络信息验证的研究人员
不包含	分布式爬虫调度、验证码破解、登录态保持、自定义JavaScript执行环境

风险提示

API调用按页或按token计费，高频使用需关注成本
Ground模式单次请求约30秒延迟，不适合实时场景
依赖第三方服务可用性，Jina服务中断将影响功能
部分网站可能阻止自动化访问，提取结果可能不完整
免费额度用尽后需付费，未配置密钥将导致调用失败

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/ericsantos/jina-reader/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

网页内容提取

技能简介

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Claude浏览器自动化

生成式引擎优化

Denario科研自动化

ArXiv论文追踪

YouTube频道工具

墨水屏消息推送

对话内容摘要

代码库智能检索

暂无评论

标签云