miles强化学习训练
技能简介miles是基于slime构建的生产级强化学习框架...
verl是火山引擎开源的大规模语言模型强化学习训练框架,实现EuroSys 2025发表的HybridFlow架构。支持多种RL算法的高效实现,为Doubao 1.5 pro等生产级模型提供训练基础设施,兼顾研究灵活性与工程可靠性。
# Option 1: pip install
pip install verl[vllm] # or verl[sglang] for SGLang backend
verl-rl-training
见下方输入与输出表格。
| 输入 | 输出 |
|---|---|
| 任务目标、输入资料和约束条件;需要处理的平台或对象;结果格式要求 | 结构化结果;执行建议或可交付产物;便于复核的后续说明 |
原始链接:https://github.com/Orchestra-Research/AI-Research-SKILLs
来源类型:GitHub 开源仓库