技能简介
本技能覆盖机器学习模型的生产化全流程,包括模型部署、MLOps流水线搭建、特征存储管理、大语言模型集成、RAG系统实现及成本优化策略。
能做什么
- 将训练好的模型导出为标准格式并容器化部署
- 搭建自动化训练-部署流水线,支持定时或触发式重训练
- 配置Feast等特征存储,统一管理线上线下特征
- 集成OpenAI/Claude等LLM API,实现容错与成本管控
- 构建RAG检索增强生成系统,对接向量数据库
- 实施模型漂移监控与A/B测试基础设施
使用说明
环境准备
pip install feast mlflow uvicorn fastapi tenacity pydantic
模型部署步骤
- 导出模型为ONNX/TorchScript/SavedModel格式
- 编写Dockerfile打包依赖与模型文件
- 部署至预发环境运行集成测试
- 灰度发布5%流量,监控1小时延迟与错误率
- 指标通过(p95延迟<100ms,错误率<0.1%)后全量上线
MLOps流水线搭建
- 配置Feast特征存储定义实体与特征视图
- 接入MLflow或Weights & Biases记录实验
- 创建带超参日志的训练管道
- 模型注册中心登记版本元数据
- 配置注册事件触发的预发部署
- 启用漂移监控告警与自动基线评估
LLM集成要点
- 设计Provider抽象层解耦供应商绑定
- 实现指数退避重试与备用供应商切换
- 配置Token计数、上下文截断与响应缓存
- 添加Pydantic结构化输出校验
输入与输出
见下方输入与输出表格。
| 项目 | 内容 |
|---|
| 输入 | 训练好的模型文件、特征数据(Parquet等格式)、Prompt模板、文档语料库、配置文件(Dockerfile/流水线定义) |
| 输出 | 容器化模型服务、在线特征视图、LLM响应结果、RAG检索结果、监控指标与告警、A/B测试报告 |
| 适用人群 | 机器学习工程师、MLOps工程师、后端开发工程师、算法工程师、技术负责人 |
| 不包含 | 模型训练代码、数据标注工具、底层GPU驱动安装、特定云厂商的托管服务配置 |
风险提示
- 模型推理延迟需持续监控,避免超时影响用户体验
- LLM API调用成本累积快,务必设置预算上限与告警
- 特征存储TTL配置不当会导致线上线下特征不一致
- 向量数据库选型需权衡查询延迟与召回率
- 自动重训练触发条件过于敏感可能引发频繁部署
来源信息
原始链接:https://github.com/openclaw/skills/tree/main/skills/alirezarezvani/senior-ml-engineer/SKILL.md
来源类型:GitHub仓库