论文自动摘要论文自动摘要
论文自动摘要

技能简介

Agentic Paper Digest 是一个自动化论文摘要工具,从 arXivHugging Face 抓取最新论文,通过 LLM 进行相关性筛选和内容总结,输出结构化 JSON 数据或启动本地 API 服务供下游调用。

能做什么

  • 按时间窗口抓取 arXiv 和 Hugging Face 的最新论文
  • 基于主题关键词进行 LLM 相关性评分与过滤
  • 生成论文标题、摘要、PDF首页文本的结构化摘要
  • 输出 JSON 格式结果或启动 REST API 服务
  • 支持自定义主题配置、机构加权、抓取参数调整

使用说明

1. 环境准备

  • Python 3 与网络连接
  • LLM 访问:设置 OPENAI_API_KEYLITELLM_API_BASE + LITELLM_API_KEY

2. 安装部署

# 运行引导脚本(优先使用 git,否则自动下载 zip)
bash "{baseDir}/scripts/bootstrap.sh"

# 自定义安装路径
PROJECT_DIR="$HOME/agentic_paper_digest" bash "{baseDir}/scripts/bootstrap.sh"

3. CLI 运行

# 基础运行
bash "{baseDir}/scripts/run_cli.sh"

# 指定时间窗口和数据源
bash "{baseDir}/scripts/run_cli.sh" --window-hours 24 --sources arxiv,hf --json

4. API 模式(可选)

# 启动服务
bash "{baseDir}/scripts/run_api.sh"

# 触发运行与查询
curl -X POST http://127.0.0.1:8000/api/run
curl http://127.0.0.1:8000/api/status
curl http://127.0.0.1:8000/api/papers

# 停止服务
bash "{baseDir}/scripts/stop_api.sh"

5. 核心配置

配置文件位于 PROJECT_DIR/config/,环境变量可写入 .env 文件:

  • config/topics.json:定义主题 ID、标签、描述、关键词及每主题上限
  • config/settings.json:覆盖抓取限制(结果数、超时等)
  • config/affiliations.json:机构匹配加权规则
  • 环境变量:WINDOW_HOURS(时间窗口)、ARXIV_CATEGORIES(分类过滤)、ENABLE_PDF_TEXT=1(启用 PDF 文本提取,需 pip install pymupdf

输入与输出

见下方输入与输出表格。

项目内容
输入时间窗口时长、主题关键词与描述、arXiv 学科分类、数据源选择(arXiv/Hugging Face)、LLM API 凭证
输出JSON 格式论文摘要(含标题、作者、摘要、PDF首页文本、主题标签、相关性评分);SQLite 数据库;REST API 端点
适用人群需要跟踪特定领域最新研究的研究人员、希望自动化文献收集的学术团队、需要将论文数据集成到自有系统的开发者
不包含非 arXiv 或 Hugging Face 来源的论文、论文全文翻译、同行评审级别的质量判断、IEEE/ACM 等付费数据库访问

 

风险提示

  • LLM API 调用产生费用,请合理设置 MAX_CANDIDATES_PER_SOURCE 控制成本
  • arXiv API 有请求频率限制,频繁抓取可能触发限流
  • PDF 文本提取依赖 PyMuPDF,未安装时该功能静默跳过
  • 配置文件需保持严格 JSON 格式(无尾随逗号),否则解析失败
  • API 模式默认监听本地端口,生产环境需配置反向代理与认证

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/matanle51/agentic-paper-digest/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...