Hugging Face模型页面新增所有评估结果
4 小时前 1 阅读来源:HuggingFace Blog
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
AI大模型评估结果长期处于“各自为政”的混乱状态:同一个模型、同一个基准测试,不同机构跑出来的分数可能相差十几个百分点,而背后的评测设置、采样参数、指标定义却常常语焉不详。这种信息黑箱让开发者、研究者和政策制定者都难以真正信任和对比模型能力。现在,两大开源社区联手,试图终结这种局面。
6月30日,HuggingFace与EvalEval联盟宣布,其评测数据格式与社区评测系统实现全面互通。这意味着,无论是模型开发者还是第三方评测机构,只需按照统一的JSON标准提交一次评测结果,就能自动同步到HuggingFace的模型页面和排行榜,并附带可追溯的完整元数据。EvalEval联盟于2026年2月成立,是首个跨机构协作改善AI评测报告标准的项目;同期,HuggingFace也推出了社区评测功能,旨在将基准分数报告权下放给社区。两者结合后,填补了用户、研究者和政策制定者在信任、理解和选择评测结果时的关键空白。
核心变化在于,评测结果不再是一堆散落在论文、博客、日志里的数字,而是被纳入一个统一的元数据存储库。这个JSON格式的评测记录包含了谁跑的、用什么模型、如何访问、生成参数、指标含义,甚至推荐附带每条样本的详细输出文件。自上线以来,该存储库已收录约22.9万条评测结果,覆盖超过2.2万个模型和2200个基准测试,数据来源涵盖31种不同的报告格式。如果从头复现这些评测,成本将高达数十万美元——这正是为什么已经有人付费生成的数据不应再被分散浪费。
现在,贡献者可以将EEE格式的结果直接发送到HuggingFace社区评测系统。系统内置的转换器会自动将EEE记录转为HuggingFace所需的YAML文件,无需手动维护两套格式。对于浏览HuggingFace的用户来说,模型页面上的每个分数都能追溯到完整的原始记录。如果提交方使用组织的官方HuggingFace账号,结果还会在EvalEval上显示已验证的勾选标记,向读者表明数据来自可靠源头。这一机制同时适用于第一方评测(模型开发者自评)和第三方评测(独立机构评测他人模型),让整个生态的透明度迈出了一大步。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
