本地RAG缓存
文档蒸馏与本地检索
该技能实现多LLM智能切换,默认使用Claude Opus 4.5处理所有请求;当用户输入包含 multi llm 指令时,自动根据任务类型选择本地Ollama模型。
解决单一模型能力局限问题,让不同复杂度的AI任务自动匹配最合适的本地模型。既保证高难度编程和推理任务获得顶级性能,又让日常中文对话和通用查询以更低成本快速响应,同时通过智能降级机制确保业务连续性。
落地案例:开发团队提交一段Python代码调试请求时,系统自动识别为编程任务,调用qwen2.5-coder生成修复方案;当产品经理询问市场趋势分析时,触发deepseek-r1进行深度推理;若员工用中文咨询休假政策,则切换至glm4保障语义理解准确度。若指定模型加载失败,自动按coder→reasoning→general顺序降级,避免服务中断。
安装依赖
# 安装Ollama
curl -fsSL https://ollama.com/install.sh | sh
# 启动服务
ollama serve
# 拉取所需模型
ollama pull qwen2.5-coder:32b
ollama pull deepseek-r1:70b
ollama pull glm4:9b
ollama pull qwen3:32b
基础用法
# 默认模式(无指令)- 使用Claude Opus 4.5
Help me write a Python function
# 激活本地模型选择
multi llm Help me write a Python function
# 强制指定模型类别
multi llm coding # 强制代码模型
multi llm reasoning # 强制推理模型
multi llm chinese # 强制中文模型
multi llm general # 强制通用模型
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 自然语言文本,可选包含触发词”multi llm”及强制类别指令 |
| 输出 | 自动选择的本地模型标识及该模型生成的响应结果 |
| 适用人群 | 本地部署Ollama的开发者、需按任务类型优化模型选择的技术用户 |
| 不包含 | 商业API接入、非Ollama模型格式支持、自定义任务分类规则 |
ollama serve运行中原始链接:https://github.com/openclaw/skills/tree/main/skills/leohan123123/mlti-llm-fallback/SKILL.md
来源类型:GitHub仓库