AI工具AI评分 一般 (61)AI 中文改写

GLM-5.2:专为长周期任务打造

4 天前 2 阅读来源:HuggingFace Blog

AI 中文改写

原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接

智谱AI发布GLM-5.2:百万Token上下文加持,开源模型首次逼近闭源前沿 6月17日,智谱AI(Z.AI)正式发布其最新旗舰模型GLM-5.2,核心卖点是针对“长周期任务”(Long-Horizon Tasks)的深度优化。这是继GLM-5.1之后的一次重大迭代,首次将百万Token(1M-token)的上下文窗口从“能支持”升级为“稳定可用”,并直接对标Claude Opus 4.8和GPT-5.5等闭源顶级模型。对于跨境电商卖家和AI从业者而言,这意味着一个能处理复杂、多步骤工程任务的开源模型已经到来,且完全开放MIT许可证,无任何地域限制。 GLM-5.2的诞生背景,源于当前AI应用从简单问答向“智能体”(Agent)模式的转变。在真实的工程场景中,AI需要连续执行数小时甚至数十小时的复杂任务,比如大规模代码重构、自动化科研实验或性能调优。这类任务对模型的要求不仅是“记住”长文本,更要在长上下文中保持推理质量,避免“中间遗忘”或逻辑断裂。GLM-5.2为此专门扩展了百万Token级别的训练数据,覆盖大规模代码实现、自动化研究、性能优化和复杂调试等场景。其效果在三大长周期编码基准测试中得到验证:在FrontierSWE(评估AI完成开放式技术项目的能力)上,GLM-5.2仅落后Opus 4.8一个百分点,领先GPT-5.5一个百分点;在PostTrainBench(评估AI利用H100 GPU优化小模型的能力)上,GLM-5.2仅次于Opus 4.8;在超长周期软件工程基准SWE-Marathon(涵盖构建编译器、优化内核等任务)上,GLM-5.2虽然落后Opus 4.8约13%,但仍是表现最好的开源模型。在标准编码测试中,GLM-5.2在Terminal-Bench 2.1上得分81.0,远超GLM-5.1的63.5,并逼近Claude Opus 4.8的85.0。 GLM-5.2的技术突破并非只靠堆算力。它引入了名为“IndexShare”的新型架构,核心思路是在每四个稀疏注意力层之间复用同一个索引器(indexer),从而将百万Token上下文下的每Token计算量(FLOPs)降低了2.9倍。同时,模型改进了多Token预测(MTP)层,用于推测解码(speculative decoding),使接受长度(acceptance length)提升了20%。这意味着在同等算力下,GLM-5.2能更快地生成高质量结果。此外,GLM-5.2还引入了“思考努力级别”(Effort Level Control)功能,用户可以根据任务难度和成本预算,在“快速响应”和“深度推理”之间自由切换。在低努力级别下,模型能快速给出答案;在高努力级别下,模型会分配更多计算资源处理复杂任务,其编码能力在同等Token消耗下介于Claude Opus 4.7和4.8之间。对于跨境电商卖家来说,这意味着可以用更低的成本处理日常的自动化脚本编写,而在遇到复杂系统优化时,又能通过提高努力级别获得接近闭源顶级模型的性能。

以上为 AI 中文改写版本,如需查看英文原文请访问

英文原文 · HuggingFace Blog

内容版权归原作者及 HuggingFace Blog 所有

这篇文章对你有帮助吗?
觉得有用?分享给更多人

留言 · 0

暂无留言,来说两句吧

留言经合规过滤后展示,禁止违法内容