HackerNews提取器

1小时前更新 1 00
HackerNews提取器HackerNews提取器
HackerNews提取器

技能简介

hn-extract 是一个 Python 脚本,用于将 HackerNews 上的帖子(包括原文和全部评论)提取并整理成一份干净的 Markdown 文件,方便快速阅读或作为大语言模型的输入材料。

业务背景

研究人员和分析师常需快速消化HackerNews上的技术讨论,但网页阅读体验分散且不利于存档。该工具将帖子原文与完整评论线程一键整理为结构化Markdown文档,便于离线阅读、团队分享或导入知识库,显著提升信息处理效率。

落地案例:某产品经理关注AI领域动态,发现HN上一篇关于大模型推理优化的热门讨论(含200+条评论)。使用本工具输入帖子URL,5分钟内获得包含:①清洗后的原文正文 ②按嵌套层级排列的全部评论 ③点赞数、作者等关键元数据的单一Markdown文件。随后将该文件上传至团队Notion,供成员批注并沉淀为技术情报资产。

能做什么

  • 接受 HackerNews 帖子 ID 或完整 URL 作为输入
  • 自动下载链接文章的 HTML 内容,清理格式后保留正文
  • 获取帖子的元数据和完整的评论线程
  • 输出包含原文、嵌套评论和关键元数据的单一 Markdown 文件

使用说明

前置要求:系统已安装 uv 且位于 PATH 中。

安装步骤:无需额外安装。运行脚本时,uv 会自动创建独立虚拟环境并安装所需依赖。

执行命令:

uv run --script ${baseDir}/hn-extract.py <hn-id|hn-url> -o /tmp/hn-<id>.md

智能体工作流(必须遵守):

  1. 运行脚本并指定输出路径
  2. 使用 message 工具一次性发送文件和询问消息(action=send, filePath 指向生成的文件)
  3. 除非用户明确要求,否则不在聊天中直接输出全文或摘要

省略 -o 参数可将结果输出到标准输出。

输入与输出

见下方输入与输出表格。

项目内容
输入HackerNews 帖子 ID、完整 URL,或本地 item.json 文件路径
输出单一 Markdown 文件,包含原文清理后的正文、嵌套评论线程、帖子元数据
适用人群技术读者、研究人员、需要将 HN 内容导入 LLM 的用户
不包含付费内容、需登录访问的数据、图片等非文本资源

 

风险提示

  • 需要登录或启用反爬机制的网站可能抓取失败
  • HTTP 请求已配置重试,但极端网络条件下仍可能超时
  • 评论按线程深度缩进,深层嵌套可能影响部分阅读器的渲染

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/guoqiao/hn-extract/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...