英伟达Nemotron Nano 2:速度提升6倍,支持128K上下文的LLM发布
英伟达推出了Nemotron Nano 2系列,这是一套新型大型语言模型(LLM),旨在提供尖端的推理准确性和卓越的速度。这些模型基于一种新颖的混合Mamba-Transformer架构,与同等规模的模型相比,推理吞吐量有望提升高达六倍。此次发布的一个显著特点是英伟达对前所未有的透明度的承诺,向更广泛的AI社区公开提供大部分训练语料库、训练方案和模型检查点。至关重要的是,这些模型被设计为在单个中端GPU(如英伟达A10G)上处理高达128,000个令牌的上下文长度,这显著降低了高级长上下文推理和实际部署的门槛。
Nemotron Nano 2模型拥有令人印象深刻的性能指标。在推理密集型场景中,它们生成令牌的速度比Qwen3-8B等模型快6.3倍,同时不牺牲准确性。除了原始速度,基准测试还显示它们在包括复杂推理、编码和多语言应用在内的多种任务中表现出卓越的准确性。它们始终与竞争性开源模型的性能持平或超越,尤其在数学问题解决、代码生成、工具利用以及需要广泛上下文理解的任务中表现出色。在单个GPU上管理128K上下文长度的能力,这一壮举以前对于中端硬件来说是不切实际的,这证明了其高效的剪枝和混合架构设计。
Nemotron Nano 2的核心是其创新的混合Mamba-Transformer骨干网络,其灵感来源于更大的Nemotron-H架构。这种设计在很大程度上用高效的Mamba-2层取代了传统的自注意力层,只有大约百分之八的总层保留了自注意力。这种精心的架构设计,在90亿参数模型中包含56层、4480的隐藏尺寸以及分组查询注意力,使得Mamba-2状态空间层能够同时促进可扩展性和强大的长序列保留能力。Mamba-2层以其高吞吐量的序列处理能力而闻名,它们与稀疏自注意力策略性地交错,以保持长程依赖性,同时结合大型前馈网络。这种结构对于需要“思维轨迹”(基于大量上下文输入生成的长输出)的推理任务特别有利,而传统Transformer架构在这些任务中经常遇到性能瓶颈或内存限制。
英伟达针对Nemotron Nano 2模型的训练方法与其架构同样值得关注。这些模型是使用一个庞大且精心策划的20万亿令牌高质量语料库,从一个更大的120亿参数教师模型中训练和蒸馏而来的。这个预训练数据涵盖了不同领域,包括网络内容、数学、代码、多语言文本、学术论文和STEM学科。英伟达通过在Hugging Face上以宽松许可发布主要数据集,进一步展示了其对数据透明度的承诺。这些数据集包括Nemotron-CC-v2(一个包含合成问答重构的多语言网络爬取数据)、Nemotron-CC-Math(包含1330亿令牌的标准化LaTeX数学内容)、Nemotron-Pretraining-Code(一个经过质量过滤的GitHub源代码集合)以及Nemotron-Pretraining-SFT(跨各种领域的合成指令遵循数据集)。此外,超过800亿令牌的后训练数据,包括监督微调(SFT)、人类反馈强化学习(RLHF)、工具调用和多语言数据集,已开源以实现直接可复现性。
Nemotron Nano 2的效率和成本效益是英伟达复杂模型压缩过程的结果,该过程建立在“Minitron”和Mamba剪枝框架之上。从120亿参数教师模型中进行的知识蒸馏将其参数减少到90亿,这是通过仔细剪枝层、前馈网络维度和嵌入宽度实现的。这还辅以多阶段SFT和强化学习技术,包括工具调用优化、指令遵循以及“思维预算”控制,用于在推理过程中管理推理令牌预算。通过针对内存的神经架构搜索,剪枝后的模型经过专门设计,以确保模型及其键值缓存即使在128K上下文长度下也能在A10G GPU的内存限制内正常运行并保持高性能。这种整体方法在具有大量输入/输出令牌的场景中,推理速度比开源竞争对手快六倍,同时保持了任务准确性。
总而言之,英伟达Nemotron Nano 2的发布标志着开源LLM研究的一个重要里程碑。它在速度和上下文容量方面重新定义了单个高性价比GPU所能实现的能力,同时为数据透明度和可复现性设定了新标准。其创新的混合架构、卓越的吞吐量和高质量的开放数据集有望显著加速整个AI生态系统的创新。