W&B训练监控

12分钟前更新 2 00

监控分析机器学习训练

收录时间:
2026-02-26
W&B训练监控W&B训练监控
W&B训练监控

技能简介

连接Weights & Biases平台,实时监控和分析深度学习训练任务。自动检测梯度爆炸/消失、训练停滞、异常损失曲线等问题,支持多运行对比与每日晨会简报生成。

业务背景

机器学习团队每日需人工巡检大量训练任务,耗时且易遗漏异常。本工具自动连接W&B平台,实时诊断梯度爆炸、训练停滞等问题,批量监控多项目运行状态,并支持A/B对比与晨会简报生成,让模型训练从"黑盒盲跑"变为"可视可控"。

落地案例:某算法工程师启动大模型微调后,次日晨会前执行全量检查:工具自动扫描12个运行中的项目,标记出2个损失曲线异常的实验;通过双运行对比快速定位学习率配置差异;最终输出JSON供CI/CD流水线自动触发早停策略,避免无效算力消耗。

能做什么

  • 单运行深度健康诊断(损失趋势、梯度状态、配置摘要)
  • 批量监控所有运行中的任务及近期失败/完成记录
  • 双运行A/B对比(配置差异、性能指标、胜负判定)
  • 自动识别多种指标命名变体(train/loss、grad_norm等)
  • 输出JSON格式供下游自动化流程使用

使用说明

前置安装

pip install wandb
wandb login
# 或在环境变量设置 WANDB_API_KEY

单运行分析

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/characterize_run.py ENTITY/PROJECT/RUN_ID

可选 --json 输出机器可读格式。

批量监控

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/watch_runs.py ENTITY [--projects p1,p2]

常用选项:--all-projects 检查全部项目;--hours N 设定回溯小时数(默认24);--json JSON输出。

运行对比

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/compare_runs.py ENTITY/PROJECT/RUN_A ENTITY/PROJECT/RUN_B

输入与输出

见下方输入与输出表格。

项目内容
输入W&B实体/项目/运行标识;可选过滤条件(项目列表、时间范围、输出格式)
输出健康诊断报告(含损失趋势、梯度状态、停滞检测、ETA估算);JSON或纯文本格式
适用人群使用Weights & Biases跟踪实验的ML工程师、研究团队负责人、MLOps运维人员
不包含W&B账号与项目管理、模型工件存储、训练代码修改、自动故障恢复机制

 

风险提示

  • 需提前完成wandb身份认证,否则API调用失败
  • 心跳检测依赖W&B服务端时间戳,网络延迟可能导致误判停滞
  • 梯度阈值(>10为爆炸、<0.0001为消失)为经验值,需按实际模型调整
  • 历史数据拉取可能耗时,大规模运行建议限制keys参数

来源信息

原始链接:https://github.com/openclaw/skills/tree/main/skills/chrisvoncsefalvay/wandb-monitor/SKILL.md
来源类型:GitHub仓库

数据统计

相关导航

暂无评论

none
暂无评论...