AI工具AI评分 一般 (55)AI 中文改写

ITBench-AA:企业IT任务基准测试,前沿模型得分不足50%

25 天前 17 阅读来源:HuggingFace Blog

AI 中文改写

原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接

前沿模型在IT运维基准测试中集体“翻车”:得分均未过半 AI在代码生成、数学推理等领域表现惊艳,但在企业IT运维这个“硬骨头”面前,连最顶尖的模型也显得力不从心。 近日,Artificial Analysis与IBM软件创新实验室联合发布了ITBench-AA基准测试,这是首个专门评估AI模型在企业IT运维任务中表现的标准。首期聚焦站点可靠性工程(SRE)场景,结果令人大跌眼镜:所有前沿模型的得分均未超过50%。 测试内容:Kubernetes事故响应 ITBench-AA的SRE任务要求模型和智能体在Kubernetes环境中诊断事故。模型需要读取日志、追踪依赖关系、识别复杂基础设施中的根本原因实体。 整个测试包含59个SRE任务,其中40个为公开任务,19个为全新保留任务。每个任务都提供一个Kubernetes事故快照,包含告警、事件、追踪、指标、日志和应用拓扑信息。模型必须找出导致事故的最小独立根本原因实体集合。 故障类型涵盖基础设施、服务、应用和混沌工程注入的事故,如资源配额耗尽、部署回滚失败、连接池耗尽和网络分区等。 成绩单:Claude Opus 4.7领跑,但无人及格 在测试中,Claude Opus 4.7(自适应推理,最大努力模式)以47%的成绩位居榜首,GPT-5.5(xhigh)以46%紧随其后,Qwen3.7 Max获得42%。 值得注意的是,所有前沿模型得分均低于50%,这使得ITBench-AA SRE成为目前最“难啃”的智能体基准测试之一。作为对比,这些模型在Terminal-Bench上的得分要高得多。 开源模型方面,GLM-5.1(推理模式)以40%领先,与Gemini 3.5 Flash(高模式)持平。DeepSeek V4 Pro(推理,最大努力模式)获得38%,Gemma 4 31B(推理模式)为37%,而Gemini 3.1 Pro Preview仅为30%。 关键发现:多不一定好 测试还有一个有趣发现:模型使用的交互轮次差异巨大,但更长的推理轨迹并不等于更高的准确率。 GPT-5.5(xhigh)平均每任务使用31轮,得分46%;而Gemini 3.1 Pro Preview平均使用83轮,得分仅30%。那些“过度调查”的模型往往会把上游故障注入机制或并发症状误判为假阳性。 评分机制:零容忍 测试采用严格的评分机制:模型和智能体提交他们认为导致事故的根本原因实体列表(如Kubernetes Deployment、Service、Pod等),然后与IBM提供的真实根本原因集合进行比对。 评分使用“全召回率下的平均精度”:如果模型遗漏了任何一个真实根本原因,该轮次得分为0;只有找出所有根本原因,才能根据提交实体的精确率获得相应分数。最终得分为59个任务×3轮次的平均值。 对中国卖家和AI从业者的启示 对于中国跨境电商卖家和出海企业而言,这一基准测试结果具有现实意义。随着企业IT架构日益复杂,Kubernetes环境下的运维自动化需求迫切。目前前沿AI模型在SRE任务上的表现说明,完全依赖AI进行生产环境故障诊断仍不可靠。 对于AI从业者来说,ITBench-AA提供了一个新的评估维度:模型在真实企业IT场景中的表现远不如在代码生成或问答任务中亮眼。这意味着,针对企业级应用的AI优化仍有巨大空间,尤其是在需要多步推理和精确诊断的场景中。 IBM和Artificial Analysis表示,未来ITBench还将扩展到金融运营(FinOps)和首席信息安全官(CISO)任务,为企业AI应用提供更全面的评估标准。

以上为 AI 中文改写版本,如需查看英文原文请访问

英文原文 · HuggingFace Blog

内容版权归原作者及 HuggingFace Blog 所有

这篇文章对你有帮助吗?
觉得有用?分享给更多人

留言 · 0

暂无留言,来说两句吧

留言经合规过滤后展示,禁止违法内容