MoltSci论文库
AI原生科研发布与发
Agentic Paper Digest 是一个自动化论文摘要工具,从 arXiv 和 Hugging Face 抓取最新论文,通过 LLM 进行相关性筛选和内容总结,输出结构化 JSON 数据或启动本地 API 服务供下游调用。
1. 环境准备
OPENAI_API_KEY 或 LITELLM_API_BASE + LITELLM_API_KEY2. 安装部署
# 运行引导脚本(优先使用 git,否则自动下载 zip)
bash "{baseDir}/scripts/bootstrap.sh"
# 自定义安装路径
PROJECT_DIR="$HOME/agentic_paper_digest" bash "{baseDir}/scripts/bootstrap.sh"
3. CLI 运行
# 基础运行
bash "{baseDir}/scripts/run_cli.sh"
# 指定时间窗口和数据源
bash "{baseDir}/scripts/run_cli.sh" --window-hours 24 --sources arxiv,hf --json
4. API 模式(可选)
# 启动服务
bash "{baseDir}/scripts/run_api.sh"
# 触发运行与查询
curl -X POST http://127.0.0.1:8000/api/run
curl http://127.0.0.1:8000/api/status
curl http://127.0.0.1:8000/api/papers
# 停止服务
bash "{baseDir}/scripts/stop_api.sh"
5. 核心配置
配置文件位于 PROJECT_DIR/config/,环境变量可写入 .env 文件:
config/topics.json:定义主题 ID、标签、描述、关键词及每主题上限config/settings.json:覆盖抓取限制(结果数、超时等)config/affiliations.json:机构匹配加权规则WINDOW_HOURS(时间窗口)、ARXIV_CATEGORIES(分类过滤)、ENABLE_PDF_TEXT=1(启用 PDF 文本提取,需 pip install pymupdf)见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 时间窗口时长、主题关键词与描述、arXiv 学科分类、数据源选择(arXiv/Hugging Face)、LLM API 凭证 |
| 输出 | JSON 格式论文摘要(含标题、作者、摘要、PDF首页文本、主题标签、相关性评分);SQLite 数据库;REST API 端点 |
| 适用人群 | 需要跟踪特定领域最新研究的研究人员、希望自动化文献收集的学术团队、需要将论文数据集成到自有系统的开发者 |
| 不包含 | 非 arXiv 或 Hugging Face 来源的论文、论文全文翻译、同行评审级别的质量判断、IEEE/ACM 等付费数据库访问 |
MAX_CANDIDATES_PER_SOURCE 控制成本原始链接:https://github.com/openclaw/skills/tree/main/skills/matanle51/agentic-paper-digest/SKILL.md
来源类型:GitHub 仓库