智囊团评审
多视角AI专家反馈
由BigCode社区维护的权威代码能力评估框架,提供开箱即用的多语言测试套件与统一指标计算,帮助研究者和工程师客观对比不同代码模型的生成质量、多语言泛化能力与特定场景表现。
git clone https://github.com/bigcode-project/bigcode-evaluation-harness.git
pip install -e .
evaluating-code-models
见下方输入与输出表格。
| 输入 | 输出 |
|---|---|
| 任务目标、输入资料和约束条件;需要处理的平台或对象;结果格式要求 | 结构化结果;执行建议或可交付产物;便于复核的后续说明 |
原始链接:https://github.com/Orchestra-Research/AI-Research-SKILLs
来源类型:GitHub 开源仓库