安全研究随机选择器
从选项中随机返回一个
miles是基于slime构建的生产级强化学习框架,专为大模型后训练优化。针对混合专家模型训练稳定性、低精度计算等关键挑战提供解决方案,支持大规模分布式RLHF训练,提升模型推理能力与对齐效果。
# Recommended: Docker
docker pull radixark/miles:latest
miles-rl-training
见下方输入与输出表格。
| 输入 | 输出 |
|---|---|
| 任务目标、输入资料和约束条件;需要处理的平台或对象;结果格式要求 | 结构化结果;执行建议或可交付产物;便于复核的后续说明 |
原始链接:https://github.com/Orchestra-Research/AI-Research-SKILLs
来源类型:GitHub 开源仓库