LLM限流管控LLM限流管控
LLM限流管控

技能简介

LLM Supervisor 用于处理云服务商(Anthropic、OpenAI)的速率限制和过载错误,在触发限流时提供本地 Ollama 模型的优雅降级方案。

业务背景

解决云模型服务突发限流导致的业务中断问题,在Anthropic、OpenAI等服务商超载时自动启用本地Ollama备用方案,保障关键查询与代码生成任务的连续性。分层管控机制兼顾效率与安全,避免非授权切换带来的输出质量风险。

落地案例:研发团队高峰期频繁触发Claude API限流:系统实时推送限流告警,开发人员执行/llm status查看事件记录与Ollama就绪状态;针对紧急代码补全请求,界面弹出确认对话框,授权后无缝切换至本地模型继续生成;简单技术问答经历史授权后自动降级,确保研发流程不卡顿,会话结束后恢复云端优先策略。

能做什么

  • 实时检测并通知云模型限流事件
  • 提供本地 Ollama 模型作为备用选项
  • 代码生成任务需用户确认后才切换本地模型
  • 简单查询场景支持自动切换(需历史授权)
  • 追踪会话状态:当前提供商、限流时间戳、代码任务本地授权状态

使用说明

前置安装

# 安装 Ollama
# macOS/Linux: curl -fsSL https://ollama.com/install.sh | sh
# Windows: 从 https://ollama.com/download 下载安装包

# 拉取默认模型
ollama pull qwen2.5:7b

# 验证已安装模型
ollama list

使用方法

当云模型触发限流时,系统会主动询问是否切换至本地 Ollama。回复 “yes” 确认后,当前会话将使用 qwen2.5:7b 继续处理请求。

可用命令:

  • /llm status — 查看当前提供商、Ollama 可用性及近期限流记录
  • /llm switch local — 手动切换至本地模型
  • /llm switch cloud — 切回云服务商

输入与输出

见下方输入与输出表格。

项目内容
输入云模型限流/超载错误;用户确认指令;手动切换命令 /llm switch local|cloud;状态查询命令 /llm status
输出限流通知;本地切换确认提示;状态报告(当前提供商、Ollama 可用性、限流事件);Ollama 生成的响应内容
适用人群依赖云 LLM 但需保障服务连续性的开发者;有本地部署需求的隐私敏感用户;需要代码生成稳定 fallback 的技术团队
不包含Ollama 安装与模型下载;多模型动态选择;非交互式自动切换(代码任务必须确认);持久化存储

 

风险提示

  • 本地模型性能与云模型存在差距,复杂代码任务可能产生质量下降
  • 未经验证的本地模型输出需人工复核后再用于生产环境
  • Ollama 需提前安装并拉取模型,否则切换将失败
  • 会话结束后自动重置为云提供商,历史授权不跨会话保留

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/dhardie/llm-supervisor/SKILL.md
来源类型:GitHub 仓库

数据统计

相关导航

暂无评论

none
暂无评论...