智能代理系统部署
AI代理操作系统搭建
LLM Supervisor 用于处理云服务商(Anthropic、OpenAI)的速率限制和过载错误,在触发限流时提供本地 Ollama 模型的优雅降级方案。
解决云模型服务突发限流导致的业务中断问题,在Anthropic、OpenAI等服务商超载时自动启用本地Ollama备用方案,保障关键查询与代码生成任务的连续性。分层管控机制兼顾效率与安全,避免非授权切换带来的输出质量风险。
落地案例:研发团队高峰期频繁触发Claude API限流:系统实时推送限流告警,开发人员执行/llm status查看事件记录与Ollama就绪状态;针对紧急代码补全请求,界面弹出确认对话框,授权后无缝切换至本地模型继续生成;简单技术问答经历史授权后自动降级,确保研发流程不卡顿,会话结束后恢复云端优先策略。
前置安装
# 安装 Ollama
# macOS/Linux: curl -fsSL https://ollama.com/install.sh | sh
# Windows: 从 https://ollama.com/download 下载安装包
# 拉取默认模型
ollama pull qwen2.5:7b
# 验证已安装模型
ollama list
使用方法
当云模型触发限流时,系统会主动询问是否切换至本地 Ollama。回复 “yes” 确认后,当前会话将使用 qwen2.5:7b 继续处理请求。
可用命令:
/llm status — 查看当前提供商、Ollama 可用性及近期限流记录/llm switch local — 手动切换至本地模型/llm switch cloud — 切回云服务商见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | 云模型限流/超载错误;用户确认指令;手动切换命令 /llm switch local|cloud;状态查询命令 /llm status |
| 输出 | 限流通知;本地切换确认提示;状态报告(当前提供商、Ollama 可用性、限流事件);Ollama 生成的响应内容 |
| 适用人群 | 依赖云 LLM 但需保障服务连续性的开发者;有本地部署需求的隐私敏感用户;需要代码生成稳定 fallback 的技术团队 |
| 不包含 | Ollama 安装与模型下载;多模型动态选择;非交互式自动切换(代码任务必须确认);持久化存储 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/dhardie/llm-supervisor/SKILL.md
来源类型:GitHub 仓库