Nemotron 3.5内容安全：全球企业AI可定制多模态防护

NVIDIA 今天正式发布了 Nemotron 3.5 Content Safety，这是其内容安全模型系列的最新版本。从 2024 年一个专注英语文本分类的简单工具起步，NVIDIA 的内容安全栈在过去两年里已经演变成一个覆盖多模态、多语言和多种推理模式的模型家族。Nemotron 3.5 的发布标志着这一演进路径的完成：现在，一个 4B 参数的模型就能在一次推理调用中同时处理多模态输入、多语言覆盖、企业自定义策略执行和可审计的推理过程。核心变化：Nemotron 3.5 最显著的升级在于四个维度。首先是统一的多模态评估能力。与之前版本分别对文本和图像进行独立评分不同，Nemotron 3.5 将用户提示、可选图像和可选的助手回复作为一个整体上下文窗口进行处理，一次性给出安全判定。这意味着那些只有在文本与图像交互、或请求与回复组合中才会出现的策略违规行为，现在能被一次捕获。其次是全球语言覆盖。模型在保留英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语 12 种语言的显式训练覆盖基础上，继承了 Gemma 3 基础模型在约 140 种语言上的强大零样本泛化能力。对于东南亚语言、斯堪的纳维亚语言或资源较少的非洲语言等训练数据稀疏的市场，部署方无需单独微调即可受益。最关键的架构创新在于自定义策略执行。在实际生产环境中，几乎没有企业会使用单一通用的安全分类体系：医疗平台的风险画像与金融聊天机器人、开发者工具 IDE 或儿童教育应用截然不同。Nemotron 3.5 允许用户将自定义策略规范与输入一同提交，模型在做出判定时会基于该策略进行推理，而非完全依赖内置分类体系。这一功能将此前在 Nemotron Content Safety Reasoning 4B 中首次引入的自定义策略能力扩展到了完整的多模态、多语言场景。此外，模型还提供了可选的推理追踪模式（THINK mode）。启用后，模型会输出逐步推理过程，再给出安全/不安全的最终标签以及违反的具体类别。当延迟成为首要约束时，可以关闭 THINK 模式，恢复到与 Nemotron 3 相同的低延迟二元判定。NVIDIA 还随 Nemotron 3.5 同步发布了安全数据集，这对开源安全模型领域来说是一个重要里程碑。

留言 · 0 条