五家实验室，五种思维：小模型打造多模态金融剧

五位实验室，五种思维：用小模型构建多模型金融剧一场由不同实验室小模型驱动的经济模拟游戏，正在重新定义AI代理的协作方式。近日，HuggingFace博客发布了一篇关于“Build Small Hackathon”第二期项目的工程报告，展示了名为“Thousand Token Wood”的金融模拟游戏v2版本。这款游戏的核心创新在于：每个AI代理（森林中的生物）都运行着来自不同实验室的小模型，而玩家则扮演幕后金融家，通过借贷、内幕交易、做空等手段操纵市场，同时躲避检察官的追捕。这不再是一个只能观看的沙盒，而是一个玩家深度参与的金融博弈场。这款游戏的前身v1版本是一个天气神沙盒：五个森林生物在一个微调的0.5B参数模型上交易商品，玩家通过施加“冲击”来观察市场泡沫和崩溃。它更像一个有趣的玩具，而非可玩的游戏。v2版本彻底改写了规则。玩家成为“森林的赞助人”，一个影子金融家：可以高利放贷、散布真假难辨的内幕消息、做空市场、行贿、撮合联盟，而检察官则随时准备以“利用未公开信息交易”为由发起调查。生物们会记住玩家的对待方式，并密谋报复。最大的变化在于底层架构：每个生物现在都使用不同实验室的小模型进行思考。这并非为了标新立异，而是因为一个有趣的市场需要参与者真正存在差异。四个实验室的模型——gpt-oss-20b（OpenAI）、MiniCPM3-4B（OpenBMB）、Nemotron-Mini-4B（NVIDIA）以及一个自行微调的Qwen 0.5B——在不同的数据上训练，采用不同的后训练方法，其差异在小模型领域堪称极致。猫头鹰囤积的方式与狐狸投机的方式截然不同，代理委员会变成了一场实时辩论，而非预设脚本。工程上的核心挑战并非模型本身，而是服务层。当前版本的vLLM（0.22.1）在加载时会JIT编译内核，需要CUDA工具包（nvcc）存在。一个精简的基础镜像并未包含它，导致所有四个模型都因“找不到nvcc”而启动失败。解决方案是将基础镜像切换为CUDA开发镜像，一个镜像修复解除了所有障碍。gpt-oss-20b以其原生的MXFP4量化格式运行，仅需24GB的L4显卡即可轻松容纳，无需高端GPU。它还会输出一种包含分析前言的频道格式，消费者需要从中提取最终频道。MiniCPM3需要启用trust_remote_code，而Nemotron则干净加载。每个模型都有各自的“小陷阱”，但只需一行配置即可解决。让四个异构模型变得易于管理的关键，与v1版本中让单一模型易于管理的原理相同：一个容错的JSON解析与修复层，所有模型的输出都流经此处。不同的分词器和格式化习惯会产生不同的畸变，解析器会丢弃无法修复的部分，而模拟过程永远不会崩溃。构建好这一层后，添加一个新模型就只是一个配置项，而非一次重构。信息不对称需要防火墙：v2版本的戏剧性核心在于内幕消息。玩家可以向某个生物透露一条消息，它可能是真实的（对下一轮市场狂热走势的准确预测，玩家的真正优势），也可能是虚假的（诱饵）。根据真实消息获利会提高玩家的“热度”；一旦超过阈值，检察官就会展开调查，最终导致罚款、资产冻结甚至流放。为了让游戏真实，消息的真假必须对生物们隐藏。它们只看到传闻文本，绝不能看到标记。这是一个安全属性，而非UI细节，而小模型代理让这一点变得尖锐：模型可能重复的一切都取决于你在其提示词中放入的内容。因此，隐藏标记完全脱离提示词（存在于玩家的账本上），在构建公共事件记录时被剥离，而叙述者总结的始终只是公共事件。一个测试会扫描每个生物每一轮的完整提示词，查找被禁止的标记。这个测试是整个测试套件中最重要的一环。当你给予代理“知情”的能力时，你必须确保它们无法“知道”它们不该知道的事。

留言 · 0 条