JetBrains发布Mellum2：12B专家混合模型

JetBrains 近日正式发布了 Mellum2，一个拥有 120 亿参数的混合专家（MoE）模型，专为自然语言和代码任务设计。该模型在每 token 推理时仅激活 25 亿参数，实现了高吞吐、低延迟的推理性能，并采用 Apache 2.0 开源协议发布。 模型核心亮点：效率与性能的平衡 Mellum2 的前身是 JetBrains 的代码补全模型，新版本将能力扩展至更广泛的自然语言处理和软件工程任务。其 MoE 架构在保持总参数容量的同时，仅对每个 token 激活部分参数，从而显著降低推理成本。官方数据显示，与同等规模模型相比，Mellum2 在基准测试中表现具有竞争力，推理速度提升超过 2 倍。 关键应用场景：聚焦 AI 系统中间件 JetBrains 明确将 Mellum2 定位为“焦点模型”（focal model），专为大型 AI 系统中的高频、低延迟任务优化。主要应用场景包括： - 路由与编排：在多模型系统中充当轻量级路由和编排模型，处理提示分类、工具选择及中间控制流步骤。 - RAG 管道：适用于延迟敏感的检索增强生成（RAG）流程，如上下文压缩、摘要生成和检索后处理。 - 子代理任务：作为 AI 代理的中间组件，执行规划、验证、转换和上下文准备等子任务，减少对大型模型的调用。 - 私有化部署：由于模型开源且推理高效，可部署于处理专有代码或内部数据的自托管环境。 技术细节与基准表现 Mellum2 专注于文本和代码模态，未涉足多模态任务，这种专业化设计使其在软件工程工作负载中保持紧凑高效。完整的架构细节、训练设置、基准测试和评估方法已发布在技术报告中。对于中国跨境电商卖家和 AI 从业者而言，Mellum2 的开源特性意味着可以低成本部署在私有服务器上，处理涉及商业机密的代码审查、自动化测试或 RAG 检索任务。其低延迟特性也适合集成到 IDE 插件或实时 AI 工作流中，例如在商品描述生成、多语言客服路由等场景下作为轻量级中间件使用。模型已可在 Hugging Face 下载，技术报告同步公开。JetBrains 表示，Mellum2 的目标不是取代现有模型栈中的每一个组件，而是让整个系统更快、更便宜、更可控。

留言 · 0 条