HackerNews提取器

1小时前更新 1 00

提取HN帖子为Mar

收录时间：

2026-02-26

手机查看

HackerNews提取器

技能简介

hn-extract 是一个 Python 脚本，用于将 HackerNews 上的帖子（包括原文和全部评论）提取并整理成一份干净的 Markdown 文件，方便快速阅读或作为大语言模型的输入材料。

业务背景

研究人员和分析师常需快速消化HackerNews上的技术讨论，但网页阅读体验分散且不利于存档。该工具将帖子原文与完整评论线程一键整理为结构化Markdown文档，便于离线阅读、团队分享或导入知识库，显著提升信息处理效率。

落地案例：某产品经理关注AI领域动态，发现HN上一篇关于大模型推理优化的热门讨论（含200+条评论）。使用本工具输入帖子URL，5分钟内获得包含：①清洗后的原文正文 ②按嵌套层级排列的全部评论 ③点赞数、作者等关键元数据的单一Markdown文件。随后将该文件上传至团队Notion，供成员批注并沉淀为技术情报资产。

能做什么

接受 HackerNews 帖子 ID 或完整 URL 作为输入
自动下载链接文章的 HTML 内容，清理格式后保留正文
获取帖子的元数据和完整的评论线程
输出包含原文、嵌套评论和关键元数据的单一 Markdown 文件

使用说明

前置要求：系统已安装 uv 且位于 PATH 中。

安装步骤：无需额外安装。运行脚本时，uv 会自动创建独立虚拟环境并安装所需依赖。

执行命令：

uv run --script ${baseDir}/hn-extract.py <hn-id|hn-url> -o /tmp/hn-<id>.md

智能体工作流（必须遵守）：

运行脚本并指定输出路径
使用 message 工具一次性发送文件和询问消息（action=send, filePath 指向生成的文件）
除非用户明确要求，否则不在聊天中直接输出全文或摘要

省略 -o 参数可将结果输出到标准输出。

输入与输出

见下方输入与输出表格。

项目	内容
输入	HackerNews 帖子 ID、完整 URL，或本地 item.json 文件路径
输出	单一 Markdown 文件，包含原文清理后的正文、嵌套评论线程、帖子元数据
适用人群	技术读者、研究人员、需要将 HN 内容导入 LLM 的用户
不包含	付费内容、需登录访问的数据、图片等非文本资源

风险提示

需要登录或启用反爬机制的网站可能抓取失败
HTTP 请求已配置重试，但极端网络条件下仍可能超时
评论按线程深度缩进，深层嵌套可能影响部分阅读器的渲染

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/guoqiao/hn-extract/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

HackerNews提取器

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

Kagi网络搜索

Brave搜索提取

鸟类识别查询

Clawd外观修改器

瑞士电话簿查询

Emporia能源查询

会话日志检索

Reddit数据查询

暂无评论

标签云