本地RAG知识库

19分钟前更新 1 00
本地RAG知识库本地RAG知识库
本地RAG知识库

技能简介

RAGLite 是一个本地优先的 RAG(检索增强生成)缓存工具,用于将文档转换为结构化 Markdown 后建立索引,支持向量相似度与关键词混合检索。数据保留在本地,适合处理私人笔记、内部文档等敏感内容。

业务背景

解决企业内部敏感文档的安全检索需求。通过本地化处理,私人笔记、内部资料等无需上传云端即可实现智能搜索,既保护数据隐私,又降低合规风险。混合检索机制兼顾语义理解与精准匹配,提升知识查找效率。

落地案例:某团队积累大量项目文档与会议纪要,分散存储难以快速定位信息。使用RAGLite将文档转为结构化Markdown并建立本地向量索引后,成员可通过自然语言提问或关键词组合检索,秒级获取相关内容。所有处理均在本地完成,避免敏感商业信息外泄,同时生成可审计的中间文件便于版本追溯。

能做什么

  • 将各类文档蒸馏为低冗余的结构化 Markdown
  • 使用 Chroma 在本地建立向量索引,无需托管数据库
  • 通过向量相似度 + ripgrep 关键词实现混合检索
  • 生成可审计、可版本控制的人工可读中间文件

使用说明

安装步骤:

  1. 确保系统已安装 Python 3.11+、pip、ripgrep(brew install ripgrep
  2. 运行安装脚本:
    ./scripts/install.sh
  3. 该脚本会从 GitHub 安装 git+https://github.com/VirajSanghvi1/raglite.git@main

执行流程:

  1. 启动 Chroma 服务(默认 http://127.0.0.1:8100
  2. 执行文档处理与索引:
    ./scripts/raglite.sh run /path/to/docs --out ./raglite_out --collection my-docs --chroma-url http://127.0.0.1:8100 --skip-existing --skip-indexed --nodes
  3. 执行查询:
    ./scripts/raglite.sh query ./raglite_out --collection my-docs --top-k 5 --keyword-top-k 5 "查询内容"

输入与输出

见下方输入与输出表格。

项目内容
输入本地文档目录、Chroma服务地址、集合名称、查询语句、可选引擎参数
输出结构化Markdown文件、向量索引数据、混合检索结果、执行日志与元数据
适用人群需要本地处理敏感文档的用户、希望降低API调用成本的开发者、有重复检索需求的个人知识管理场景
不包含云端托管向量数据库服务、模型记忆或对话上下文管理、实时协作或多用户同步功能

 

风险提示

  • Chroma 服务未启动会导致索引或查询失败
  • 未安装 ripgrep 时关键词检索功能不可用
  • 使用 OpenClaw 引擎需配置网关地址与认证令牌
  • 大文档批量处理可能消耗较多本地计算资源

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/virajsanghvi1/raglite-library/SKILL.md
来源类型:GitHub 开源项目

数据统计

相关导航

暂无评论

none
暂无评论...