DiScoFormer:单一Transformer实现跨分布密度与评分
1 小时前 1 阅读来源:HuggingFace Blog
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
生成式AI的底层技术正在迎来一次关键突破。6月29日,艾伦人工智能研究所(Ai2)与HuggingFace联合发布了一篇名为《DiScoFormer: One transformer for density and score, across distributions》的技术报告,提出了一种名为DiScoFormer(密度与评分Transformer)的新型模型。它能够从任意一组数据点中,一次性同时估算出该数据分布的密度和评分(score),且无需针对不同分布重新训练。这一成果直接挑战了当前机器学习领域一个长期存在的两难困境:要么用传统方法(如核密度估计KDE)保持通用性但牺牲高维精度,要么用神经网络模型保持高维精度但丧失泛化能力。
DiScoFormer的出现,意味着AI模型在处理“从样本中还原分布”这一基础任务时,不再需要在通用性和准确性之间做取舍。对于跨境电商卖家而言,这一技术的潜在影响可能体现在更精准的用户行为建模、异常交易检测以及更高效的推荐系统上。例如,卖家可以利用DiScoFormer快速分析不同地区、不同品类的用户购买分布,无需为每个市场单独训练模型,从而大幅降低数据科学团队的工作负担。
核心突破在于DiScoFormer的设计思路。传统上,核密度估计(KDE)是一种无需训练、适用于任何分布的方法,但它在高维数据中精度急剧下降。而神经评分匹配模型虽然在高维场景下表现优异,但每个模型只能学习一个特定分布,换一个数据集就得从头训练。DiScoFormer通过Transformer架构中的交叉注意力机制,将KDE作为其一个特例,并在此基础上学习多个尺度,从而同时输出密度和评分。更关键的是,它利用密度和评分之间的数学关系——评分是密度对数的梯度——设计了一个共享主干网络和两个输出头,并在推理时通过无标签的一致性损失进行自适应调整。这意味着,即使输入数据来自训练时未见过的新分布,DiScoFormer也能在几轮梯度更新后快速适应,无需真实密度或评分作为参考。
这项研究的训练数据选择了高斯混合模型(GMM),原因有二:一是GMM是通用的密度逼近器,理论上可以拟合任何平滑分布;二是GMM的密度和评分有闭合形式的解析解,便于提供精确的训练目标。这种设计使得DiScoFormer在保持数学可解释性的同时,具备了超越传统方法的灵活性和精度。对于AI从业者来说,这意味着未来在贝叶斯采样、扩散模型(如Stable Diffusion、DALL-E)的底层优化,甚至等离子体粒子模拟等科学计算领域,都可以用同一个模型处理不同分布,而无需为每个任务重新训练庞大的神经网络。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
