Hugging Face模型评估

15小时前更新 0 00

在Hugging Face模型卡片中添加评估结果，支持从README提取表格、导入Artificial Analysis API分数及vLLM/lighteval自定义评测。

收录时间：

2026-03-06

大模型工具 # 技能 # 效率 # 自动化

Hugging Face模型评估

Hugging Face模型评估

技能简介

打通模型发布与评估数据闭环的实用工具。一键整合多源评测指标至模型主页，支持主流推理框架的自动化基准测试，提升模型可信度与发现效率。

能做什么

整理模型调用与提示流程
沉淀可复用的智能体能力
输出可接入业务的执行方案

使用说明

明确模型目标与输入边界。
配置提示流程和调用参数。
检查输出质量并做人工复核。

uv run scripts/evaluation_manager.py get-prs --repo-id "username/model-name"

uv run scripts/evaluation_manager.py --help

英文名

hugging-face-evaluation

输入与输出

见下方输入与输出表格。

输入	输出
任务目标、输入资料和约束条件；需要处理的平台或对象；结果格式要求	结构化结果；执行建议或可交付产物；便于复核的后续说明

风险提示

涉及外部平台接口、账号或权限时，先确认授权边界与数据访问范围。
自动生成或自动执行结果应保留人工复核，避免直接替代最终业务判断。
若处理内部资料、客户信息或经营数据，应先完成脱敏与权限控制。

来源信息

原始链接：https://github.com/huggingface/skills
来源类型：GitHub 开源仓库

数据统计

相关导航

Playwright测试审查

系统性扫描端到端测试文件，识别反模式、最佳实践缺失与用例覆盖盲区。

Notion文档

连接 ghubnerr/Notion-MCP，用于办公流程自动化、文档协同和团队执行提效。

Excel表格

连接 Lipdog/excel-master-mcp，用于办公流程自动化、文档协同和团队执行提效。

智能模型路由

Claude三级自动

飞书机器人

连接 twwch/mcp-feishu-bot，用于办公流程自动化、文档协同和团队执行提效。

AI多模态

多模态AI：多模态 AI（cellcog）是 2026年2月 Dee。包含业务背景、能做什么与使用说明，适合快速上手并落地实践。

意识构建框架

AI系统自我意识开发

AI免费模型管理

暂无评论

none

暂无评论...