content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server)
适用人群
适合:要批量打开网页、搜索信息、点击页面并保存结果的人、要反复登录后台、填写表单、截图取证或下载页面内容的人、要把固定网页操作交给 AI 自动执行的运营、测试和采集人员。
技能介绍
这个技能主要用于浏览器自动化、网页访问和页面信息处理,适合把重复的网页操作交给系统先跑一遍。
目标:把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口,供后续所有业务 skill(github-explorer、写作类 skills、日报等)复用。
业务背景和落地案例
当团队需要浏览器自动化时,可以先用content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server)完成第一轮处理。常见做法是把相关文件、网址、素材或配置交给它,先产出初版结果,再由人工确认和继续推进。
能做什么
- 行为规约层:永远给出可追溯入口(原文 URL + 解析产物路径/链接),绝不编造来源。
- Token 探针:先用低成本 probe 判断可不可以直接抓;不行再走重解析(MinerU)。
- 反弹机制:失败时返回“下一步动作建议”,而不是一堆异常栈。
- 白名单文件:references/domain-whitelist.md。
- 对命中白名单的 URL:强制 modelversion=MinerU-HTML。
- 目标:拿到正文 markdown(便宜、快)。
- 判断“失败/不合格”条件(见 references/heuristics.md)包括:。
- 403/401/反爬。
安装方法
方式 1:对 OpenClaw 说(不用写代码)
适合:OpenClaw、Codex、Kimiclaw、Windsurf、Trae、华为 CodeArts。
直接对 OpenClaw 说:
帮我安装一个叫 content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server) 的 Skill。
如果安装时需要精确名字,就用 openclaw-skills-content-extract。
装好以后,先用它帮我处理一遍当前任务。
如果需要手动安装,可以用这条命令:
clawhub install openclaw-skills-content-extract
方式 2:导入 MD 安装
适合:腾讯Workbuddy、百度Duclaw、字节Arkclaw、智谱Autoclaw、科大讯飞Astronclaw。
- 找到这条 Skill 自带的 Markdown 文件,通常就是它的
SKILL.md 或同名 .md 文件。 - 把这个 Markdown 文件导入到你的产品里。
- 导入完成后,直接对 AI 说:
用刚刚导入的content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server),先帮我处理当前任务。
备注:这一种本质上是导入一个 Markdown 文件,给知道安装包里有 .md 文件的人即可。
方式 3:代码安装
适合:Claude Code、Cursor、通义灵码、文心快码。
最短可用命令:
python3 /home/node/.openclaw/workspace/skills/mineru-extract/scripts/mineru_parse_documents.py \
使用步骤
- 先选上面 3 种方式里,自己最容易完成的一种。
- 安装完成后,直接对 OpenClaw 说:“用content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server)帮我处理当前任务。” 先让它自己跑一遍就可以。
- 如果你已经有明确文件、网址、目录或数据,再把它补给 OpenClaw,让它只处理这一部分。
- 先看第一轮结果,再决定要不要追加条件、缩小范围或继续执行下一步。
- 如果这条 Skill 确实好用,就把它保留在常用列表,后面重复任务直接复用。
你需要准备什么
- 与你当前任务相关的文件、网址、目录或数据。
- 要访问的网址或页面列表。
- 需要执行的网页操作目标。
- 如果涉及登录,还要准备可用账号或权限。
你会看到什么结果
- 页面截图、抓取结果或结构化数据。
- 自动化执行后的页面结果。
- 可继续复用的网页操作流程。
风险提示
- 涉及 API Key、Token 或其他凭证时,先确认保存方式和权限边界。
- 依赖外部服务时,网络波动、配额限制或接口变化都会影响结果。
- 自动化页面流程容易受页面结构变化影响,正式使用前先跑一遍最小示例。
来源信息
- 公开页面地址: https://agentskillsrepo.com/skill/blessonism/openclaw-skills-content-extract
- SKILL.md 下载地址: https://agentskillsrepo.com/skill/blessonism/openclaw-skills-content-extract/download