Hugging Face模型页面新增所有评估结果

AI大模型评估结果长期处于“各自为政”的混乱状态：同一个模型、同一个基准测试，不同机构跑出来的分数可能相差十几个百分点，而背后的评测设置、采样参数、指标定义却常常语焉不详。这种信息黑箱让开发者、研究者和政策制定者都难以真正信任和对比模型能力。现在，两大开源社区联手，试图终结这种局面。 6月30日，HuggingFace与EvalEval联盟宣布，其评测数据格式与社区评测系统实现全面互通。这意味着，无论是模型开发者还是第三方评测机构，只需按照统一的JSON标准提交一次评测结果，就能自动同步到HuggingFace的模型页面和排行榜，并附带可追溯的完整元数据。EvalEval联盟于2026年2月成立，是首个跨机构协作改善AI评测报告标准的项目；同期，HuggingFace也推出了社区评测功能，旨在将基准分数报告权下放给社区。两者结合后，填补了用户、研究者和政策制定者在信任、理解和选择评测结果时的关键空白。核心变化在于，评测结果不再是一堆散落在论文、博客、日志里的数字，而是被纳入一个统一的元数据存储库。这个JSON格式的评测记录包含了谁跑的、用什么模型、如何访问、生成参数、指标含义，甚至推荐附带每条样本的详细输出文件。自上线以来，该存储库已收录约22.9万条评测结果，覆盖超过2.2万个模型和2200个基准测试，数据来源涵盖31种不同的报告格式。如果从头复现这些评测，成本将高达数十万美元——这正是为什么已经有人付费生成的数据不应再被分散浪费。现在，贡献者可以将EEE格式的结果直接发送到HuggingFace社区评测系统。系统内置的转换器会自动将EEE记录转为HuggingFace所需的YAML文件，无需手动维护两套格式。对于浏览HuggingFace的用户来说，模型页面上的每个分数都能追溯到完整的原始记录。如果提交方使用组织的官方HuggingFace账号，结果还会在EvalEval上显示已验证的勾选标记，向读者表明数据来自可靠源头。这一机制同时适用于第一方评测（模型开发者自评）和第三方评测（独立机构评测他人模型），让整个生态的透明度迈出了一大步。

留言 · 0 条