混沌实验室
多智能体对齐冲突研究
Constitutional AI采用两阶段训练:先让模型根据原则自我修正输出,再通过强化学习优化AI反馈评分。该方法有效降低有害内容生成风险,成为大模型安全对齐的重要技术路线。
constitutional-ai
见下方输入与输出表格。
| 输入 | 输出 |
|---|---|
| 任务目标、输入资料和约束条件;需要处理的平台或对象;结果格式要求 | 结构化结果;执行建议或可交付产物;便于复核的后续说明 |
原始链接:https://github.com/Orchestra-Research/AI-Research-SKILLs
来源类型:GitHub 开源仓库