W&B训练监控

12分钟前更新 2 00

监控分析机器学习训练

收录时间：

2026-02-26

手机查看

数据分析 # 机器学习

W&B训练监控

技能简介

连接Weights & Biases平台，实时监控和分析深度学习训练任务。自动检测梯度爆炸/消失、训练停滞、异常损失曲线等问题，支持多运行对比与每日晨会简报生成。

业务背景

机器学习团队每日需人工巡检大量训练任务，耗时且易遗漏异常。本工具自动连接W&B平台，实时诊断梯度爆炸、训练停滞等问题，批量监控多项目运行状态，并支持A/B对比与晨会简报生成，让模型训练从"黑盒盲跑"变为"可视可控"。

落地案例：某算法工程师启动大模型微调后，次日晨会前执行全量检查：工具自动扫描12个运行中的项目，标记出2个损失曲线异常的实验；通过双运行对比快速定位学习率配置差异；最终输出JSON供CI/CD流水线自动触发早停策略，避免无效算力消耗。

能做什么

单运行深度健康诊断（损失趋势、梯度状态、配置摘要）
批量监控所有运行中的任务及近期失败/完成记录
双运行A/B对比（配置差异、性能指标、胜负判定）
自动识别多种指标命名变体（train/loss、grad_norm等）
输出JSON格式供下游自动化流程使用

使用说明

前置安装

pip install wandb
wandb login
# 或在环境变量设置 WANDB_API_KEY

单运行分析

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/characterize_run.py ENTITY/PROJECT/RUN_ID

可选 --json 输出机器可读格式。

批量监控

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/watch_runs.py ENTITY [--projects p1,p2]

常用选项：--all-projects 检查全部项目；--hours N 设定回溯小时数（默认24）；--json JSON输出。

运行对比

~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/compare_runs.py ENTITY/PROJECT/RUN_A ENTITY/PROJECT/RUN_B

输入与输出

见下方输入与输出表格。

项目	内容
输入	W&B实体/项目/运行标识；可选过滤条件（项目列表、时间范围、输出格式）
输出	健康诊断报告（含损失趋势、梯度状态、停滞检测、ETA估算）；JSON或纯文本格式
适用人群	使用Weights & Biases跟踪实验的ML工程师、研究团队负责人、MLOps运维人员
不包含	W&B账号与项目管理、模型工件存储、训练代码修改、自动故障恢复机制

风险提示

需提前完成wandb身份认证，否则API调用失败
心跳检测依赖W&B服务端时间戳，网络延迟可能导致误判停滞
梯度阈值（>10为爆炸、<0.0001为消失）为经验值，需按实际模型调整
历史数据拉取可能耗时，大规模运行建议限制keys参数

来源信息

原始链接：https://github.com/openclaw/skills/tree/main/skills/chrisvoncsefalvay/wandb-monitor/SKILL.md
来源类型：GitHub仓库

数据统计

暂无评论

暂无评论...

W&B训练监控

技能简介

业务背景

能做什么

使用说明

输入与输出

风险提示

来源信息

数据统计

相关导航

全球天气查询

Prometheus监控查询

豆瓣收藏同步

YouTube数据提取

实时汇率查询

GA4数据查询

谷歌地图商户采集

西班牙电价查询

暂无评论

标签云