技能简介构建大语言模型系统的全面评估框架,整合自动评测指标、人工标注反馈与线上对照实验。适用于模型选型、迭代优化与生产效果监控,确保 AI 应用质量可控。能做什么整理模型调用与提示流程沉淀可复用的智能体能力输出可接入业务的执行方案使用说明明确模型目标与输入边界。配置提示流程和调用参数。检查输出质量并做人工复核。英文名llm-evaluat...
构建大语言模型系统的全面评估框架,整合自动评测指标、人工标注反馈与线上对照实验。适用于模型选型、迭代优化与生产效果监控,确保 AI 应用质量可控。
llm-evaluation
见下方输入与输出表格。
原始链接:https://github.com/wshobson/agents来源类型:GitHub 开源仓库
Δ