LLM限流管控

3分钟前更新 1 00

云模型限流时自动切换

收录时间：

2026-02-26

手机查看

LLM限流管控

技能简介

LLM Supervisor 用于处理云服务商（Anthropic、OpenAI）的速率限制和过载错误，在触发限流时提供本地 Ollama 模型的优雅降级方案。

业务背景

解决云模型服务突发限流导致的业务中断问题，在Anthropic、OpenAI等服务商超载时自动启用本地Ollama备用方案，保障关键查询与代码生成任务的连续性。分层管控机制兼顾效率与安全，避免非授权切换带来的输出质量风险。

落地案例：研发团队高峰期频繁触发Claude API限流：系统实时推送限流告警，开发人员执行/llm status查看事件记录与Ollama就绪状态；针对紧急代码补全请求，界面弹出确认对话框，授权后无缝切换至本地模型继续生成；简单技术问答经历史授权后自动降级，确保研发流程不卡顿，会话结束后恢复云端优先策略。

能做什么

实时检测并通知云模型限流事件
提供本地 Ollama 模型作为备用选项
代码生成任务需用户确认后才切换本地模型
简单查询场景支持自动切换（需历史授权）
追踪会话状态：当前提供商、限流时间戳、代码任务本地授权状态

使用说明

前置安装

# 安装 Ollama
# macOS/Linux: curl -fsSL https://ollama.com/install.sh | sh
# Windows: 从 https://ollama.com/download 下载安装包

# 拉取默认模型
ollama pull qwen2.5:7b

# 验证已安装模型
ollama list

使用方法

当云模型触发限流时，系统会主动询问是否切换至本地 Ollama。回复 “yes” 确认后，当前会话将使用 qwen2.5:7b 继续处理请求。

可用命令：

/llm status — 查看当前提供商、Ollama 可用性及近期限流记录
/llm switch local — 手动切换至本地模型
/llm switch cloud — 切回云服务商

输入与输出

见下方输入与输出表格。

项目	内容
输入	云模型限流/超载错误；用户确认指令；手动切换命令 /llm switch local\|cloud；状态查询命令 /llm status
输出	限流通知；本地切换确认提示；状态报告（当前提供商、Ollama 可用性、限流事件）；Ollama 生成的响应内容
适用人群	依赖云 LLM 但需保障服务连续性的开发者；有本地部署需求的隐私敏感用户；需要代码生成稳定 fallback 的技术团队
不包含	Ollama 安装与模型下载；多模型动态选择；非交互式自动切换（代码任务必须确认）；持久化存储

风险提示

本地模型性能与云模型存在差距，复杂代码任务可能产生质量下降
未经验证的本地模型输出需人工复核后再用于生产环境
Ollama 需提前安装并拉取模型，否则切换将失败
会话结束后自动重置为云提供商，历史授权不跨会话保留

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/dhardie/llm-supervisor/SKILL.md
来源类型：GitHub 仓库

数据统计

暂无评论

暂无评论...

LLM限流管控

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

智能代理系统部署

Emporia能源查询

ESXi主机管理

飞书考勤监控

Komodo运维管理

阿里云语音合成

云端AI应用运行器

VibeTunnel终端管理

暂无评论

标签云