Nous Research发布开源编程模型NousCoder-14B
1 个月前 12 阅读来源:VentureBeat AI
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
Nous Research 推出开源编程模型 NousCoder-14B,在 Claude Code 热潮中另辟蹊径
由加密风投 Paradigm 支持的开源 AI 初创公司 Nous Research 周一发布了一款新的竞技编程模型 NousCoder-14B。该公司声称,该模型仅用 48 块英伟达最新 B200 显卡、耗时四天训练而成,其性能已达到甚至超越多个规模更大的闭源系统。这一发布恰逢一个特殊时刻:竞争对手 Anthropic 的智能编程工具 Claude Code 自元旦以来在社交媒体上引发热议,开发者们纷纷分享其惊人能力的体验。
这两件事同时发生,凸显了 AI 辅助软件开发领域的快速演进,以及大小公司为抢占这一可能成为软件编写基础技术的市场而展开的激烈竞争。
性能表现:四天训练,追上人类两年苦练
根据 Nous Research 随模型发布的技术报告,NousCoder-14B 在 LiveCodeBench v6 标准评测中达到了 67.87% 的准确率。该评测涵盖 2024 年 8 月至 2025 年 5 月发布的竞技编程问题。相比其基础模型——阿里巴巴的 Qwen3-14B,这一成绩提升了 7.08 个百分点。
谷歌 Gemini API 首席工程师 Jaana Dogan 上周在 X 平台上发布了一条引发广泛共鸣的帖子:“我给 Claude Code 描述了一个问题,它在一小时内生成了我们去年花一年时间构建的系统。”她描述的是一套分布式智能体编排系统,而 Claude Code 仅凭三段提示就实现了近似效果。
这一对比颇具启示:Anthropic 的 Claude Code 通过端到端软件开发的演示俘获了人心,而 Nous Research 则押注于基于可验证问题训练的开源替代方案能够缩小差距,并且模型构建过程的透明度与原始能力同样重要。
完全开源:不止模型权重,连训练环境都公开
NousCoder-14B 与许多竞品发布的最大区别在于其彻底的开放性。Nous Research 不仅公开了模型权重,还发布了完整的强化学习环境、基准测试套件和训练框架——全部基于该公司自有的 Atropos 框架。这意味着任何拥有足够算力的研究者都可以复现或扩展这项工作。
一位观察者在 X 上评论道:“开源 Atropos 栈为可复现的奥林匹克级推理研究提供了必要的基础设施。”这概括了该发布对学术界和开源社区的意义。
训练背后的故事:前竞技程序员与 AI 的“成长对比”
该模型由 Nous Research 驻场研究员、前竞技程序员 Joe Li 负责训练。他的技术报告揭示了一个颇具人情味的维度:他将模型的进步轨迹与自己在 Codeforces(竞技编程平台,参与者根据比赛表现获得评级)上的成长历程进行了对比。
根据 LiveCodeBench 分数与 Codeforces 评级的粗略映射,Li 计算出 NousCoder-14B 的进步——从约 1600-1750 评级区间跃升至 2100-2200——相当于他 14 至 16 岁期间近两年持续练习所取得的进步。而模型只用了四天。
“看着最终训练过程展开,真是一种超现实的体验,”Li 在技术报告中写道。但他也迅速指出了重要的局限性:他在那两年里解决了大约 1000 道题,而模型需要 24000 道。至少目前,人类在样本效率上仍远胜 AI。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
