Parallel AI研究增强
技能简介集成Parallel AI服务强化NanoClaw的...
GRPO通过组内奖励比较替代传统价值网络,降低RL训练复杂度。结合TRL框架提供生产级实现方案,适用于数学推理、代码生成等需要长链条思考能力的模型后训练优化。
grpo-rl-training
见下方输入与输出表格。
| 输入 | 输出 |
|---|---|
| 创意描述或视觉需求;尺寸、风格和品牌约束;原始素材或参考样例 | 图像/动图/视频结果;可复用的生成步骤;后续修改所需素材说明 |
原始链接:https://github.com/Orchestra-Research/AI-Research-SKILLs
来源类型:GitHub 开源仓库