初创公司声称突破大语言模型瓶颈

一家名为Subquadratic的迈阿密AI初创公司上个月高调走出隐身模式，声称自己解决了一个困扰大语言模型近十年的数学瓶颈。起初，细节寥寥，外界普遍持怀疑态度。但如今，这家公司开始拿出证据，分享了其新技术在独立评估中的结果，暗示其宣称或许并非空穴来风。 Subquadratic声称开发了一种名为SubQ的新型大语言模型，比市场上任何其他模型更快、更便宜、能耗更低。公司还表示，SubQ能一次性处理的文本量是大多数其他模型的12倍，从而可以执行分析数百份文档或整个代码库等数据密集型任务。更关键的是，Subquadratic称，SubQ在编码等关键任务上的表现，与Google DeepMind、OpenAI和Anthropic推出的最佳模型基本持平。问题在于，公司最初仅提供了一些自行发布的测试分数作为证据，且尚未让SubQ广泛开放试用。因此，质疑声浪并不意外。AI工程师Dan McAteer在X平台上的评论颇具代表性：“SubQ要么是Transformer以来最大的突破，要么就是AI界的Theranos（血液检测骗局公司）。” 一个月后，Subquadratic发布了更多关于其模型的信息，包括由第三方公司Appen进行的额外独立测试结果。Subquadratic联合创始人兼首席技术官Alex Whedon坦言：“我们预料到了健康的怀疑。事后看来，如果在最初发布时就附带第三方基准测试，可能会消除很多疑虑。这就是为什么我们现在花时间确保任何未来结果在发布前都经过充分验证。”Appen负责评估其他公司的模型，其生成式AI研究总监Jeanine Sinanan-Singh表示，测试结果似乎证实了Subquadratic的许多说法：“这让我非常兴奋，它验证了他们的架构。我当时想，‘哇，这可能会改变游戏规则’，因为模型在速度和低效问题上一直挣扎。但当结果如此惊人时，自己说出来确实不太可信。” SubQ不会全面取代现有的顶级模型，但在特定任务上，它可能以极低的成本提供巨大的速度提升。不过，Subquadratic坚持认为，从长远来看，其突破可能改变大语言模型的构建方式。公司联合创始人兼CEO Justin Dangel表示：“我们希望开启一个效率新时代。我们认为几年内不会有人再基于Transformer架构构建模型了。” 要理解Subquadratic的宣称为何重要，需要了解大多数大语言模型的工作原理。大语言模型内部的关键机制是一种名为Transformer的神经网络，它运行一个称为密集注意力的过程。今天的LLM通常将多个Transformer串联在一起（2017年Google研究人员发表的LLM时代奠基论文标题就是《注意力就是一切》）。密集注意力机制的工作原理是：当Transformer处理一段文本时，它首先用数字对每个单词（或单词的一部分，称为token）进行编码。为了捕捉全文含义，它会将这些数字中的每一个与文本中的其他每一个数字相乘。例如，一段1万字的文本将触发近5000万次乘法运算。这是巨大的计算量，也是大语言模型以耗电著称的主要原因。“如果你想总结《了不起的盖茨比》，你必须同时看第一个词和最后一个词，然后还要看其他所有词对之间的关系。”

留言 · 0 条