全球天气查询
命令行获取实时天气与
连接Weights & Biases平台,实时监控和分析深度学习训练任务。自动检测梯度爆炸/消失、训练停滞、异常损失曲线等问题,支持多运行对比与每日晨会简报生成。
机器学习团队每日需人工巡检大量训练任务,耗时且易遗漏异常。本工具自动连接W&B平台,实时诊断梯度爆炸、训练停滞等问题,批量监控多项目运行状态,并支持A/B对比与晨会简报生成,让模型训练从"黑盒盲跑"变为"可视可控"。
落地案例:某算法工程师启动大模型微调后,次日晨会前执行全量检查:工具自动扫描12个运行中的项目,标记出2个损失曲线异常的实验;通过双运行对比快速定位学习率配置差异;最终输出JSON供CI/CD流水线自动触发早停策略,避免无效算力消耗。
前置安装
pip install wandb
wandb login
# 或在环境变量设置 WANDB_API_KEY
单运行分析
~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/characterize_run.py ENTITY/PROJECT/RUN_ID
可选 --json 输出机器可读格式。
批量监控
~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/watch_runs.py ENTITY [--projects p1,p2]
常用选项:--all-projects 检查全部项目;--hours N 设定回溯小时数(默认24);--json JSON输出。
运行对比
~/clawd/venv/bin/python3 ~/clawd/skills/wandb/scripts/compare_runs.py ENTITY/PROJECT/RUN_A ENTITY/PROJECT/RUN_B
见下方输入与输出表格。
| 项目 | 内容 |
|---|---|
| 输入 | W&B实体/项目/运行标识;可选过滤条件(项目列表、时间范围、输出格式) |
| 输出 | 健康诊断报告(含损失趋势、梯度状态、停滞检测、ETA估算);JSON或纯文本格式 |
| 适用人群 | 使用Weights & Biases跟踪实验的ML工程师、研究团队负责人、MLOps运维人员 |
| 不包含 | W&B账号与项目管理、模型工件存储、训练代码修改、自动故障恢复机制 |
原始链接:https://github.com/openclaw/skills/tree/main/skills/chrisvoncsefalvay/wandb-monitor/SKILL.md
来源类型:GitHub仓库