网站内容爬取

3小时前更新 1 00

抓取网页存为本地Ma

收录时间：

2026-02-26

浏览器自动化 # Markdown导出 # 数据抓取 # 文本提取 # 自动化采集

网站内容爬取

网站内容爬取

技能简介

该技能用于抓取任意网站内容，并将页面转换为本地Markdown文件保存，便于离线阅读与内容归档。

能做什么

递归抓取网站所有可访问页面
自动将HTML内容转换为Markdown格式
生成本地文件结构，保留原始链接关系
支持指定爬取深度与域名范围

使用说明

安装指令：当前技能未提供具体安装命令，需根据运行环境手动配置Python依赖（如requests、beautifulsoup4、markdownify等库）。

使用步骤：

确认目标网站允许爬虫访问（检查robots.txt）
配置爬取参数：起始URL、最大深度、输出目录
执行爬取命令，等待任务完成
在指定目录查看生成的Markdown文件

输入与输出

见下方输入与输出表格。

项目	内容
输入	目标网站URL、爬取深度、输出目录、过滤规则
输出	Markdown格式网页文件、目录结构、爬取日志
适用人群	开发者、资料整理人员、研究人员、知识库维护者
不包含	图形验证码破解、付费内容绕过、分布式爬取调度

风险提示

爬取前务必遵守目标网站的robots.txt协议
高频请求可能导致IP被封禁
注意版权与数据隐私合规要求
部分动态渲染页面可能无法完整抓取

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/barneyjm/crawl/SKILL.md
来源类型：GitHub开源仓库

数据统计

相关导航

谷歌新闻采集

自动抓取Google

智能服务发现

自动推送新工具与服务

科技头条速览

浏览器自动化工具

Rust编写的无头浏

浏览器自动化控制

复用Chrome会话

反检测浏览器会话

绕过反爬虫的云端浏览

安全命令执行

自动拦截危险命令并审

数据库查询工具

自动SSH隧道管理的

暂无评论

none

暂无评论...