AI采购关键变量：专业化胜规模

专业化胜过规模：大多数AI采购决策忽略的战略变量 当模型的训练历史足够接近其部署任务时，参数数量就不再是决定性变量。一个30亿参数的专业化模型，在严格测量的企业领域内，性能超越了所有商业前沿API——而成本仅为后者的约五十分之一。今年4月，Dharma发布了DharmaOCR——一对用于结构化OCR的专业化小型语言模型，同时推出了基准测试和配套论文。这些模型和基准测试已在Hugging Face上开放。它们是Dharma研究专业化、对齐和推理经济学在生产AI系统中如何相互作用这一更广泛努力的一部分。本文从这些发现中提炼出一个战略启示：专业化、分布对齐和参数规模之间的关系。以下内容严格限定在论文支持的范围内展开。 战略默认值 过去三年，企业AI战略基本建立在这样一个稳定假设上：最安全的选择通常是可用的最大前沿模型。较小的模型主要被认为适用于那些可以容忍一定质量下降以换取更低成本的工作负载。这个假设背后的逻辑很直接。能力似乎随参数数量增长，前沿提供商持续领跑主要基准测试，而选错模型的成本通常被认为高于为领先模型付费的成本。这种推理是站得住脚的。但实证记录现在包含了一个结果，其背后的比较集无法轻易解释。今年早些时候，Dharma发布了一项基准测试：一个30亿参数的模型——通过任何资源充足的企业都能复制的微调流程实现专业化——在性能上超越了所有测试的商业前沿API。不是小幅领先，也不是在买家会忽视的指标上。成本差距与质量差距方向相反：得分最高的模型也是运营成本最低的，其差距之大足以在任何有意义的规模上改变采购算法。这个结果并非孤立现象。这是迄今为止最严格测量的实例，体现了Dharma在其他领域观察到的模式——也是越来越多的专业化研究开始记录的现象（Subramanian et al., 2025; Pecher et al., 2026）。但这确实提出了一个值得明确追问的问题：当最大的模型不是性能最好的模型时，是什么变量在起作用？ 采购默认值并非偶然 采购默认值并非偶然出现。它之所以存在，是因为在过去三年的大部分时间里，它都是正确的。当GPT-4发布时，它在重要的基准测试上超越了所有较小的模型。这一模式在Claude 3、Gemini 1.5以及2025年每一代前沿发布中不断重复，并有所改进。能力随参数数量和训练计算量扩展——这是OpenAI多年前通过缩放定律形式化的实证关系。由此得出的教训是：选择最大可用模型的买家，平均而言，是在选择性能最好的工具。在缺乏更精确信号的情况下，默认选择规模是理性的举动。这个假设之所以站得住脚，是因为在产生它的大部分比较中，它都是正确的。变化的不是这个假设一直错误。变化的是它所依据的比较集可能并不完整。缺失的是另一种模型——不是更小的前沿模型，而是专业化模型：其训练历史通过一系列微调步骤，被有意地移近它将被要求执行的任务，从而将较小的基础模型适配到特定领域。

留言 · 0 条