AI评分 一般 (67)AI 中文改写
Nemotron 3.5内容安全:全球企业AI可定制多模态防护
17 天前 9 阅读来源:HuggingFace Blog
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
NVIDIA 今天正式发布了 Nemotron 3.5 Content Safety,这是其内容安全模型系列的最新版本。从 2024 年一个专注英语文本分类的简单工具起步,NVIDIA 的内容安全栈在过去两年里已经演变成一个覆盖多模态、多语言和多种推理模式的模型家族。Nemotron 3.5 的发布标志着这一演进路径的完成:现在,一个 4B 参数的模型就能在一次推理调用中同时处理多模态输入、多语言覆盖、企业自定义策略执行和可审计的推理过程。
核心变化:Nemotron 3.5 最显著的升级在于四个维度。首先是统一的多模态评估能力。与之前版本分别对文本和图像进行独立评分不同,Nemotron 3.5 将用户提示、可选图像和可选的助手回复作为一个整体上下文窗口进行处理,一次性给出安全判定。这意味着那些只有在文本与图像交互、或请求与回复组合中才会出现的策略违规行为,现在能被一次捕获。其次是全球语言覆盖。模型在保留英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语 12 种语言的显式训练覆盖基础上,继承了 Gemma 3 基础模型在约 140 种语言上的强大零样本泛化能力。对于东南亚语言、斯堪的纳维亚语言或资源较少的非洲语言等训练数据稀疏的市场,部署方无需单独微调即可受益。
最关键的架构创新在于自定义策略执行。在实际生产环境中,几乎没有企业会使用单一通用的安全分类体系:医疗平台的风险画像与金融聊天机器人、开发者工具 IDE 或儿童教育应用截然不同。Nemotron 3.5 允许用户将自定义策略规范与输入一同提交,模型在做出判定时会基于该策略进行推理,而非完全依赖内置分类体系。这一功能将此前在 Nemotron Content Safety Reasoning 4B 中首次引入的自定义策略能力扩展到了完整的多模态、多语言场景。此外,模型还提供了可选的推理追踪模式(THINK mode)。启用后,模型会输出逐步推理过程,再给出安全/不安全的最终标签以及违反的具体类别。当延迟成为首要约束时,可以关闭 THINK 模式,恢复到与 Nemotron 3 相同的低延迟二元判定。NVIDIA 还随 Nemotron 3.5 同步发布了安全数据集,这对开源安全模型领域来说是一个重要里程碑。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
