ITBench-AA：企业IT任务基准测试，前沿模型得分不足50%

前沿模型在IT运维基准测试中集体“翻车”：得分均未过半 AI在代码生成、数学推理等领域表现惊艳，但在企业IT运维这个“硬骨头”面前，连最顶尖的模型也显得力不从心。近日，Artificial Analysis与IBM软件创新实验室联合发布了ITBench-AA基准测试，这是首个专门评估AI模型在企业IT运维任务中表现的标准。首期聚焦站点可靠性工程（SRE）场景，结果令人大跌眼镜：所有前沿模型的得分均未超过50%。 测试内容：Kubernetes事故响应 ITBench-AA的SRE任务要求模型和智能体在Kubernetes环境中诊断事故。模型需要读取日志、追踪依赖关系、识别复杂基础设施中的根本原因实体。整个测试包含59个SRE任务，其中40个为公开任务，19个为全新保留任务。每个任务都提供一个Kubernetes事故快照，包含告警、事件、追踪、指标、日志和应用拓扑信息。模型必须找出导致事故的最小独立根本原因实体集合。故障类型涵盖基础设施、服务、应用和混沌工程注入的事故，如资源配额耗尽、部署回滚失败、连接池耗尽和网络分区等。 成绩单：Claude Opus 4.7领跑，但无人及格 在测试中，Claude Opus 4.7（自适应推理，最大努力模式）以47%的成绩位居榜首，GPT-5.5（xhigh）以46%紧随其后，Qwen3.7 Max获得42%。值得注意的是，所有前沿模型得分均低于50%，这使得ITBench-AA SRE成为目前最“难啃”的智能体基准测试之一。作为对比，这些模型在Terminal-Bench上的得分要高得多。开源模型方面，GLM-5.1（推理模式）以40%领先，与Gemini 3.5 Flash（高模式）持平。DeepSeek V4 Pro（推理，最大努力模式）获得38%，Gemma 4 31B（推理模式）为37%，而Gemini 3.1 Pro Preview仅为30%。 关键发现：多不一定好 测试还有一个有趣发现：模型使用的交互轮次差异巨大，但更长的推理轨迹并不等于更高的准确率。 GPT-5.5（xhigh）平均每任务使用31轮，得分46%；而Gemini 3.1 Pro Preview平均使用83轮，得分仅30%。那些“过度调查”的模型往往会把上游故障注入机制或并发症状误判为假阳性。 评分机制：零容忍 测试采用严格的评分机制：模型和智能体提交他们认为导致事故的根本原因实体列表（如Kubernetes Deployment、Service、Pod等），然后与IBM提供的真实根本原因集合进行比对。评分使用“全召回率下的平均精度”：如果模型遗漏了任何一个真实根本原因，该轮次得分为0；只有找出所有根本原因，才能根据提交实体的精确率获得相应分数。最终得分为59个任务×3轮次的平均值。 对中国卖家和AI从业者的启示 对于中国跨境电商卖家和出海企业而言，这一基准测试结果具有现实意义。随着企业IT架构日益复杂，Kubernetes环境下的运维自动化需求迫切。目前前沿AI模型在SRE任务上的表现说明，完全依赖AI进行生产环境故障诊断仍不可靠。对于AI从业者来说，ITBench-AA提供了一个新的评估维度：模型在真实企业IT场景中的表现远不如在代码生成或问答任务中亮眼。这意味着，针对企业级应用的AI优化仍有巨大空间，尤其是在需要多步推理和精确诊断的场景中。 IBM和Artificial Analysis表示，未来ITBench还将扩展到金融运营（FinOps）和首席信息安全官（CISO）任务，为企业AI应用提供更全面的评估标准。

留言 · 0 条