本地RAG缓存工具本地RAG缓存工具
本地RAG缓存工具

技能简介

RAGLite 是一款本地优先的 RAG(检索增强生成)缓存工具,用于将文档转换为结构化 Markdown 后建立本地索引,支持通过向量数据库和关键词进行混合查询。该工具不替代模型记忆或对话上下文,而是为代理提供一个持久化存储和检索未训练数据的私有空间。

业务背景

企业可将内部文档、技术手册、个人笔记等私有资料转化为可检索的知识库,解决敏感数据不便上传云端的问题。通过本地向量索引与关键词混合检索,快速定位分散在多份文件中的关键信息,提升知识复用效率。

落地案例:某研发团队积累大量技术方案文档和会议纪要,使用工具将/docs目录下的PDF和Word文件一键蒸馏为结构化Markdown,建立名为"tech-kb"的本地索引。后续成员查询"用户认证流程如何设计"时,系统同时匹配向量语义和相关关键词,从12份分散文档中聚合出完整的实现方案和注意事项,避免重复翻阅原始文件。

能做什么

  • 将原始文档蒸馏为结构化 Markdown,减少冗余内容
  • 使用 Chroma 向量数据库在本地建立可查询的索引
  • 结合向量相似度与 ripgrep 关键词实现混合检索
  • 支持重复查询个人笔记、内部文档等私有知识库
  • 生成可审计、可版本控制的人类可读中间产物

使用说明

安装步骤:

  1. 执行安装脚本:./scripts/install.sh
  2. 脚本会在 skills/raglite/.venv 创建独立虚拟环境
  3. 自动安装 PyPI 包 raglite-chromadb,CLI 命令保持为 raglite

运行流程:

  1. 执行蒸馏与索引(单命令流水线):
    ./scripts/raglite.sh run /path/to/docs --out ./raglite_out --collection my-docs --chroma-url http://127.0.0.1:8100 --skip-existing --skip-indexed --nodes
  2. 执行查询:
    ./scripts/raglite.sh query "how does X work?" --out ./raglite_out --collection my-docs --chroma-url http://127.0.0.1:8100

输入与输出

见下方输入与输出表格。

项目内容
输入本地文档目录路径、Chroma 服务地址、集合名称、查询语句
输出结构化 Markdown 文件、Chroma 向量索引、查询结果文本
适用人群需要本地处理敏感文档的用户、希望避免云服务的隐私场景、重复查询固定知识库的工作流、技术团队内部文档管理
不包含云端托管向量数据库、实时网络爬虫功能、多用户协作权限管理、模型训练或微调能力

 

风险提示

  • 从第三方来源(网页、PDF、厂商文档)提取的内容可能包含提示注入攻击,工具已配置蒸馏提示以忽略源材料中的指令
  • 需自行确保 Chroma 服务可达(默认 http://127.0.0.1:8100)
  • 依赖 Python 3、pip 和 ripgrep 二进制文件预先安装
  • 大文档批量处理可能消耗较多本地计算资源

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/virajsanghvi1/raglite/SKILL.md
来源类型:GitHub 开源仓库

数据统计

相关导航

暂无评论

none
暂无评论...