大模型陷入群体思维，这家初创公司试图打破僵局

大模型陷入“群体思维”怪圈，这家澳洲初创公司想用“欢迎幻觉”来破局如果你最近打开ChatGPT、Claude或Gemini，输入“给我一个1到10之间的随机数”，结果大概率会得到7。再问一次，可能是3或4，第三次则可能是8或9。这不是什么超能力，而是大语言模型（LLM）普遍存在的一个隐秘缺陷：它们远比想象中更可预测、更缺乏创造力。对于编程、资料检索这类任务，这种“群体思维”或许无伤大雅，但当你需要头脑风暴、规划旅行路线或为品牌想一句广告语时，千篇一律的答案就会成为致命伤。澳大利亚初创公司Springboards正是看准了这个痛点，推出了一款名为Flint的大模型，其核心卖点恰恰是主流模型避之不及的“幻觉”——即生成多样化、甚至出人意料的回答。 Springboards联合创始人兼CEO Pip Bingemann用一个简单的游戏展示了Flint的与众不同。他先让ChatGPT和Claude给出一个1到10的随机数，两者都回答了7。接着，Flint同样给出了7，但Bingemann并不意外：“7是合法答案，这很正常。”他重启会话后再次提问，ChatGPT和Claude依然给出7，而Flint这次却输出了3.7916。同样的差异也出现在其他场景：当被要求“说出一种汽车品牌”时，ChatGPT和Claude不约而同地选择了丰田或本田，而Flint给出了福特F-150。Bingemann指出：“这些模型其实有能力说出别克或特斯拉，但它们存在偏见，只输出最‘安全’的选项。”最直观的例子是广告语测试：当三个模型被要求为New Balance跑鞋写一句宣传语时，Claude和ChatGPT都给出了“Run your way”，而Flint则给出了“Built to last, run to win”——虽不惊艳，但至少与众不同。这种“群体思维”现象并非偶然。2024年11月，一篇题为《人工蜂群思维：语言模型的开放性同质化（及超越）》的研究论文在顶级AI会议NeurIPS上获得了最佳论文奖。研究者对25个不同的大模型（包括美国头部公司模型以及来自中国的开源模型）进行了测试，要求每个模型用50次机会写出关于时间的隐喻。结果，在1250条回复中，绝大多数都是“时间是一条河”或“时间是一个织布工”的变体。相比之下，当研究者向6位人类同事提出同样问题时，得到了6个完全不同的答案，其中一位写道：“时间是一件最爱的卫衣，被岁月的穿着塑形。”Springboards联合创始人兼CTO Kieran Browne指出：“大多数聊天界面的设计让人感觉是在进行私人对话，但用户很少意识到，他们得到的答案其实和别人一模一样。”例如，当被问及“我的乐队该叫什么名字”时，大多数模型会给出包含“玻璃”、“霓虹”、“天鹅绒”或“静电”等词汇的建议。Browne表示，这种重复性无处不在。Springboards的解法并非追求绝对正确，而是主动拥抱“幻觉”，通过训练让Flint在开放式问题上生成更丰富的可能性。对于跨境电商卖家而言，这意味着在品牌命名、广告创意、产品描述等需要差异化输出的场景中，Flint或许能提供比主流模型更具灵感的备选方案。当然，这种“欢迎幻觉”的策略也意味着用户需要自行筛选和判断，但至少在打破千篇一律的僵局上，Flint提供了一个有趣的尝试方向。

留言 · 0 条