NVIDIA ProRLv2:强化学习时长突破,大幅提升LLM推理能力
英伟达最新的创新ProRLv2(Prolonged Reinforcement Learning v2,延长强化学习v2)代表着在增强大型语言模型(LLM)推理能力方面迈出的重要一步。这种新方法挑战了传统观念,通过将强化学习(RL)步数从2000步大幅延长至前所未有的3000步,LLM能够解锁新的解决方案空间,培养更强的创造力,并达到以前被认为无法实现的高级推理能力。值得注意的是,即使在更紧凑的模型中,例如拥有15亿参数的Nemotron-Research-Reasoning-Qwen-1.5B-v2,这些进步也显而易见。
为了实现这些突破,ProRLv2整合了几项关键创新,旨在缓解在LLM训练中应用RL时常遇到的固有不稳定性和局限性。其核心组件是REINFORCE+±Baseline,这是一种为长周期优化而设计的强大RL算法,能够在数千步中实现稳定学习。通过结合KL散度正则化和参考策略重置机制,进一步确保了稳定性和探索性。该系统定期用当前表现最佳的检查点刷新参考模型,防止RL目标过早地主导训练过程,从而实现持续、稳定的进展。通过解耦裁剪和动态采样(DAPO)积极鼓励生成解决方案的多样性,DAPO专门提高了不常见词元的可能性,并战略性地将学习信号导向中等难度的提示。此外,周期性应用的计划长度惩罚有助于保持多样性,并防止模型在训练延长时收敛过于狭窄。然而,最直接的创新是扩展RL训练周期本身,明确测试延长RL能将推理边界推向多远。
ProRLv2的实际影响通过Nemotron-Research-Reasoning-Qwen-1.5B-v2的性能得到了生动的体现,该模型使用ProRLv2进行了完整的3000步RL训练。这款紧凑型模型在各种推理任务中,包括复杂的数学、编码挑战、科学问题和逻辑谜题,为开源15亿参数模型树立了新基准。其性能不仅超越了之前的迭代,还在同类模型中脱颖而出。一个关键的观察是,随着RL步数的增加,性能持续提升;更长的训练始终带来收益,尤其是在基础模型最初表现不佳的任务上,这表明推理边界的真正扩展。此外,ProRLv2显著增强了泛化能力,不仅提高了直接准确率(pass@1),还使模型能够为训练中未曾遇到的任务设计新颖的推理方法和解决方案策略。基准测试的收益是巨大的,包括数学平均pass@1准确率提高14.7%,编码提高13.9%,逻辑谜题惊人的提高54.8%,STEM推理提高25.1%,以及指令遵循任务提高18.1%,其v2迭代在以前未见过的更具挑战性的基准上也有进一步的改进。
ProRLv2的总体发现意义深远:持续的强化学习,在精心应用探索和正则化技术的情况下,能够可靠地扩展大型语言模型的学习和泛化能力。延长RL训练不仅没有达到早期性能平台或过拟合,反而使小型模型也能获得与大型模型相当的推理能力。这表明,扩展RL过程本身对于推进AI能力至关重要,其重要性不亚于增加模型大小或数据集容量。ProRLv2从根本上重新定义了语言模型推理的感知极限,强调AI开发的未来可能不仅在于模型的规模,还在于通过复杂的强化学习可以将其学习的深度和持续时间扩展到何种程度。