本地RAG缓存本地RAG缓存
本地RAG缓存

技能简介

RAGLite 是一个本地优先的 RAG 缓存工具,用于将文档蒸馏为结构化 Markdown 后建立索引,支持向量相似度与关键词混合检索。数据保留在本地,适合处理私人笔记、内部文档等敏感内容。

能做什么

  • 将原始文档压缩为低冗余的结构化 Markdown
  • 使用 Chroma 在本地建立向量索引
  • 通过向量相似度 + ripgrep 关键词实现混合检索
  • 生成可审计、可版本控制的人工可读中间文件

使用说明

环境要求

  • Python 3.11+
  • Chroma 服务可访问(默认 http://127.0.0.1:8100)
  • ripgrep 已安装(brew install ripgrep
  • 若使用 OpenClaw 引擎,需配置网关地址与 Token

安装步骤

./scripts/install.sh

该脚本会在技能本地 venv 中安装 RAGLite,依赖从 GitHub 拉取:git+https://github.com/VirajSanghvi1/raglite.git@main

执行流程

  1. 准备文档目录
  2. 运行完整流水线:
./scripts/raglite.sh run /path/to/docs \
  --out ./raglite_out \
  --collection my-docs \
  --chroma-url http://127.0.0.1:8100 \
  --skip-existing \
  --skip-indexed \
  --nodes
  1. 执行检索查询:
./scripts/raglite.sh query ./raglite_out \
  --collection my-docs \
  --top-k 5 \
  --keyword-top-k 5 \
  "rollback procedure"

输入与输出

见下方输入与输出表格。

项目内容
输入本地文档目录、Chroma 服务地址、集合名称、检索关键词
输出结构化 Markdown 文件、Chroma 向量索引、混合检索结果
适用人群注重数据隐私的个人用户、需要本地知识库的技术团队
不包含云端托管方案、模型记忆管理、自动文档同步

 

风险提示

  • Chroma 服务未启动会导致索引或查询失败
  • 缺少 ripgrep 时关键词检索返回为空
  • OpenClaw 引擎需要正确配置网关认证信息
  • 大文档集首次处理耗时较长

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/virajsanghvi1/raglite-local-rag-cache/SKILL.md
来源类型:GitHub 开源技能

数据统计

相关导航

暂无评论

none
暂无评论...