网站内容爬取

3小时前更新 1 00
网站内容爬取网站内容爬取
网站内容爬取

技能简介

该技能用于抓取任意网站内容,并将页面转换为本地Markdown文件保存,便于离线阅读与内容归档。

能做什么

  • 递归抓取网站所有可访问页面
  • 自动将HTML内容转换为Markdown格式
  • 生成本地文件结构,保留原始链接关系
  • 支持指定爬取深度与域名范围

使用说明

安装指令:当前技能未提供具体安装命令,需根据运行环境手动配置Python依赖(如requests、beautifulsoup4、markdownify等库)。

使用步骤:

  1. 确认目标网站允许爬虫访问(检查robots.txt)
  2. 配置爬取参数:起始URL、最大深度、输出目录
  3. 执行爬取命令,等待任务完成
  4. 在指定目录查看生成的Markdown文件

输入与输出

见下方输入与输出表格。

项目内容
输入目标网站URL、爬取深度、输出目录、过滤规则
输出Markdown格式网页文件、目录结构、爬取日志
适用人群开发者、资料整理人员、研究人员、知识库维护者
不包含图形验证码破解、付费内容绕过、分布式爬取调度

 

风险提示

  • 爬取前务必遵守目标网站的robots.txt协议
  • 高频请求可能导致IP被封禁
  • 注意版权与数据隐私合规要求
  • 部分动态渲染页面可能无法完整抓取

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/barneyjm/crawl/SKILL.md
来源类型:GitHub开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...