英伟达发布Nemotron-Nano-9B-v2:小巧、开放,带推理切换的AI模型
英伟达已进入蓬勃发展的小型语言模型(SLM)领域,发布了Nemotron-Nano-9B-v2。这是一款紧凑而强大的AI模型,旨在提供高级推理能力,同时优化部署效率。此举顺应了AI模型日益小型化、专业化的趋势,这些模型能够在计算能力较弱的硬件上运行,例如麻省理工学院衍生公司Liquid AI和谷歌最近推出的模型。
Nemotron-Nano-9B-v2拥有90亿参数,这比其最初设计的120亿参数有了显著减少。这种优化专门针对在单个Nvidia A10 GPU上进行部署,A10 GPU是企业应用的热门选择。据Nvidia AI模型后训练总监Oleksii Kuchiaev称,这种剪枝允许更大的批处理规模,并使模型处理信息的速度比同等大小的Transformer模型快六倍。作为参考,许多领先的大型语言模型(LLM)的参数范围在700亿以上,其中参数指的是控制模型行为的内部设置,参数越多通常意味着能力越强,但计算需求也越高。对Nemotron-Nano-9B-v2这类更小、更高效模型的推动,旨在解决日益增长的功耗、不断上涨的Token成本和推理延迟等问题,这些问题正在重塑企业AI的格局。
Nemotron-Nano-9B-v2的一个重要架构创新是其混合特性,它结合了Transformer和Mamba架构的元素。虽然广泛采用的Transformer模型仅依赖于注意力层(随着序列长度的增长,这会变得内存和计算密集),但Nemotron-H模型(Nano-9B-v2所属的家族)集成了来自Mamba架构的选择性状态空间模型(SSM)。由卡内基梅隆大学和普林斯顿大学的研究人员开发,SSM通过维护内部状态,擅长处理非常长的信息序列。这些层与序列长度呈线性扩展,能够高效处理更长的上下文,而没有传统自注意力机制相关的巨大内存和计算开销。这种混合方法显著降低了运营成本,在长上下文上实现了高达两到三倍的吞吐量,同时保持了可比的准确性,这也是其他AI实验室正在采用的策略。
Nemotron-Nano-9B-v2的一个突出特点是其用户可控的AI“推理”功能。该模型被定位为一个统一的纯文本聊天和推理系统,默认在生成最终答案之前生成内部推理轨迹。用户可以使用简单的控制Token(如/think
或/no_think
)来开启或关闭此行为。此外,开发人员可以在运行时管理“思考预算”,限制模型在完成响应之前用于内部推理的Token数量。这种机制对于平衡准确性和延迟至关重要,尤其是在客户支持系统或自主代理等时间敏感的应用中。
基准评估突显了Nemotron-Nano-9B-v2在与其他开放小型模型相比时的竞争性准确性。在“推理开启”模式下使用NeMo-Skills套件进行测试时,它取得了令人印象深刻的成绩:AIME25上达到72.1%,MATH500上达到97.8%,GPQA上达到64.0%,LiveCodeBench上达到71.1%。指令遵循和长上下文基准测试也表现出强劲性能,IFEval上达到90.3%,RULER 128K测试上达到78.9%。总的来说,Nano-9B-v2显示出比Qwen3-8B更高的准确性,后者是其同类产品中常见的比较对象。Nvidia通过准确性-预算曲线展示了这些结果,演示了性能如何随着推理Token额度的增加而扩展,这表明仔细的预算控制可以优化实际应用中的质量和延迟。
该模型及其底层Nemotron-H家族在各种精选的、网络来源的和合成数据集上进行训练,包括通用文本、代码、数学、科学、法律和金融文档,以及对齐风格的问答数据集。值得注意的是,Nvidia证实使用了其他大型模型生成的合成推理轨迹,以提高在复杂基准上的性能。该模型还设计为广泛的语言支持,处理英语、德语、西班牙语、法语、意大利语和日语,并提供韩语、葡萄牙语、俄语和中文的扩展描述,使其适用于指令遵循和代码生成。
Nemotron-Nano-9B-v2已通过Nvidia开放模型许可协议在Hugging Face和Nvidia模型目录中立即提供。这种宽松的、企业友好的许可明确指出,这些模型开箱即用,可用于商业用途,允许开发人员自由创建和分发衍生模型。至关重要的是,Nvidia不主张模型生成的任何输出的所有权,将责任和权利归于使用它的开发人员或组织。这意味着企业可以将模型集成到生产中,而无需协商单独的商业许可,也无需承担与使用阈值或收入水平相关的费用,这与某些分层开放许可不同。
尽管许可非常宽松,但它确实规定了几项关键条件,重点关注负责任的部署。用户不得绕过内置安全机制,除非实施了可比的替代方案,并且模型的任何再分发或其衍生模型必须包含Nvidia开放模型许可文本和归属。遵守贸易法规和限制,以及遵守Nvidia关于道德考虑的“可信赖AI”指南,也是强制性的。此外,如果用户针对另一实体提起版权或专利诉讼,指控模型侵权,则诉讼条款将自动终止许可。这些条件旨在确保合法和道德使用,而不是施加商业限制,允许企业在不承担版税负担的情况下扩展其产品,前提是它们遵守安全、归属和合规义务。
借助Nemotron-Nano-9B-v2,Nvidia的目标客户是那些在较小规模下需要推理能力和部署效率之间微妙平衡的开发人员。通过将混合架构与先进的压缩和训练技术相结合,该公司正在提供旨在保持准确性同时显著降低成本和延迟的工具,这凸显了其对高效和可控AI模型的持续关注。