大模型陷入群体思维,这家初创公司试图打破僵局
3 小时前 1 阅读来源:MIT Technology Review
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
大模型陷入“群体思维”怪圈,这家澳洲初创公司想用“欢迎幻觉”来破局
如果你最近打开ChatGPT、Claude或Gemini,输入“给我一个1到10之间的随机数”,结果大概率会得到7。再问一次,可能是3或4,第三次则可能是8或9。这不是什么超能力,而是大语言模型(LLM)普遍存在的一个隐秘缺陷:它们远比想象中更可预测、更缺乏创造力。对于编程、资料检索这类任务,这种“群体思维”或许无伤大雅,但当你需要头脑风暴、规划旅行路线或为品牌想一句广告语时,千篇一律的答案就会成为致命伤。澳大利亚初创公司Springboards正是看准了这个痛点,推出了一款名为Flint的大模型,其核心卖点恰恰是主流模型避之不及的“幻觉”——即生成多样化、甚至出人意料的回答。
Springboards联合创始人兼CEO Pip Bingemann用一个简单的游戏展示了Flint的与众不同。他先让ChatGPT和Claude给出一个1到10的随机数,两者都回答了7。接着,Flint同样给出了7,但Bingemann并不意外:“7是合法答案,这很正常。”他重启会话后再次提问,ChatGPT和Claude依然给出7,而Flint这次却输出了3.7916。同样的差异也出现在其他场景:当被要求“说出一种汽车品牌”时,ChatGPT和Claude不约而同地选择了丰田或本田,而Flint给出了福特F-150。Bingemann指出:“这些模型其实有能力说出别克或特斯拉,但它们存在偏见,只输出最‘安全’的选项。”最直观的例子是广告语测试:当三个模型被要求为New Balance跑鞋写一句宣传语时,Claude和ChatGPT都给出了“Run your way”,而Flint则给出了“Built to last, run to win”——虽不惊艳,但至少与众不同。
这种“群体思维”现象并非偶然。2024年11月,一篇题为《人工蜂群思维:语言模型的开放性同质化(及超越)》的研究论文在顶级AI会议NeurIPS上获得了最佳论文奖。研究者对25个不同的大模型(包括美国头部公司模型以及来自中国的开源模型)进行了测试,要求每个模型用50次机会写出关于时间的隐喻。结果,在1250条回复中,绝大多数都是“时间是一条河”或“时间是一个织布工”的变体。相比之下,当研究者向6位人类同事提出同样问题时,得到了6个完全不同的答案,其中一位写道:“时间是一件最爱的卫衣,被岁月的穿着塑形。”Springboards联合创始人兼CTO Kieran Browne指出:“大多数聊天界面的设计让人感觉是在进行私人对话,但用户很少意识到,他们得到的答案其实和别人一模一样。”例如,当被问及“我的乐队该叫什么名字”时,大多数模型会给出包含“玻璃”、“霓虹”、“天鹅绒”或“静电”等词汇的建议。Browne表示,这种重复性无处不在。Springboards的解法并非追求绝对正确,而是主动拥抱“幻觉”,通过训练让Flint在开放式问题上生成更丰富的可能性。对于跨境电商卖家而言,这意味着在品牌命名、广告创意、产品描述等需要差异化输出的场景中,Flint或许能提供比主流模型更具灵感的备选方案。当然,这种“欢迎幻觉”的策略也意味着用户需要自行筛选和判断,但至少在打破千篇一律的僵局上,Flint提供了一个有趣的尝试方向。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
