ScarfBench：企业Java框架迁移AI代理基准测试

IBM研究院发布ScarfBench基准测试：AI代理在企业级Java框架迁移任务中表现惨淡，成功率不足10% 企业级应用现代化改造是全球软件工程领域规模最大、成本最高的活动之一。团队需要将应用从一个框架迁移到另一个框架，以提升可维护性、云就绪能力、开发者生产力，并获取现代功能。近年来，编码代理（Coding Agent）的进步让业界对AI辅助现代化改造充满期待。但一个关键问题始终悬而未决：AI代理能否可靠地完成真实世界企业应用的现代化改造？现有的软件工程基准测试在缺陷修复和代码生成方面取得了令人瞩目的进展，但框架迁移提出了一个根本不同的挑战。成功不仅需要翻译代码，还需要保持行为一致、适配构建系统，并处理运行时依赖关系。为了填补这一空白，IBM研究院的研究团队推出了ScarfBench（Self-Contained Application Refactoring Benchmark，自包含应用重构基准测试），这是一个专门用于评估AI代理在企业级Java跨框架迁移任务中表现的开放基准。ScarfBench聚焦于三大Java生态系统的迁移：Spring、Jakarta EE和Quarkus。与传统的将生成代码与参考实现进行对比的基准测试不同，ScarfBench评估的是迁移后的应用是否真的能构建、部署并保持原有行为。框架迁移的难度远超简单的注解替换。一次简单的仓库迁移可能需要改动依赖注入、持久化配置、查询语句和框架描述文件等多个环节。任何一个环节的小错误都可能导致部署失败。ScarfBench提供了一套系统化的评估方法，要求迁移后的应用必须满足三个条件：成功构建、正确部署、通过行为验证。这为衡量现代化改造质量提供了更真实的标尺。该基准测试包含34个应用、102个框架实现、204个迁移任务，涉及约15.1万行代码、约2000个源文件和测试文件，以及1331个专家编写的测试用例。研究团队评估了多个最先进的编码代理在ScarfBench上的表现。结果显示，尽管这些代理在传统软件工程基准测试中表现强劲，但框架迁移依然困难重重。不同框架对之间的成功率差异巨大，而整个应用的迁移尤其具有挑战性。目前最强的代理在行为验证上的成功率不到10%，这清晰地揭示了生成可编译代码与保持应用行为之间的巨大鸿沟。编译成功率始终高于部署成功率，而部署成功率又高于行为验证成功率。仅凭构建成功会严重高估迁移质量。迁移难度与目标框架强相关，其中Jakarta EE的迁移尤其困难。

留言 · 0 条