阿里巴巴GSPO:LLM强化学习稳定训练,赋能Qwen3模型
强化学习(RL)已成为扩展大型语言模型(LLM)的关键技术,使其能够通过更深层次的推理,应对诸如竞赛级数学和复杂编程任务等高度复杂的挑战。然而,一个重大障碍依然存在:在利用日益增长的计算资源扩展RL时,如何实现稳定可靠的训练动态。当前最先进的算法,特别是GRPO,在训练巨型语言模型时经常遭遇严重的稳定性问题,常常导致灾难性故障。这些不稳定性源于重要性采样权重的应用不当,引入了高方差噪声。这种噪声随着模型响应的延长而加剧,并因剪裁机制而恶化,最终导致模型崩溃并阻碍进展。
现有方法如PPO和GRPO试图通过剪裁等机制解决离策略学习(即模型从过时策略生成的数据中学习)的挑战。然而,这些方法受限于其病态目标,尤其是在应用于处理长响应任务的巨型模型时。例如,GRPO对令牌级重要性采样的依赖会产生高方差噪声,从而引发不可逆转的模型崩溃。无论是通过细致的超参数调整还是检查点恢复,从这种崩溃中恢复的尝试往往都徒劳无功,这凸显了其设计中的根本缺陷。令牌级校正与序列级奖励之间固有的不匹配,突出表明迫切需要一种直接在序列级别进行优化以确保稳定性和可扩展性的新方法。
为应对这些挑战,阿里巴巴的研究人员引入了组序列策略优化(GSPO),这是一种专为LLM训练设计的创新RL算法。GSPO的主要突破在于其理论基础坚实的重要性比率,该比率源自整个序列的似然性,与重要性采样原理更加契合。此外,它将归一化奖励计算为单个查询的多个响应的优势,从而促进序列级奖励与整体优化目标之间的一致性。经验评估一致表明,GSPO在稳定性、效率和整体性能方面显著超越GRPO。通过有效解决训练大型专家混合(MoE)模型时经常遇到的稳定性问题,GSPO消除了对复杂且通常繁琐的稳定化技术的需要。
研究人员使用从Qwen3-30B-A3B-Base微调的冷启动模型进行了实验,并仔细跟踪了AIME’24、LiveCodeBench和CodeForces等严苛基准测试中的训练奖励曲线和模型性能。在训练过程中,每个批次的rollout数据被系统地分为四个mini-batch进行梯度更新。GSPO的一个关键区别在于其剪裁方法:它剪裁的是整个响应而不是单个令牌,其剪裁范围在其公式中通常设置为3e-4和4e-4。这导致与GRPO相比,剪裁的令牌比例存在两个数量级的差异。值得注意的是,尽管为梯度估计移除了更大比例的令牌,GSPO仍实现了卓越的训练效率。这一结果有力地强调了GRPO嘈杂的令牌级估计固有的低效率。
GSPO带来了显著优势,特别是对于MoE模型训练,它通过梯度更新过程中一致的专家激活来稳定训练过程——这与GRPO形成鲜明对比,后者经常与专家激活的波动性作斗争。这项创新消除了对路由重放等复杂解决方案的需求,简化了底层基础设施,并使模型能够充分利用其固有能力。在更广泛的RL基础设施中,GSPO的序列级优化显著降低了其对精确令牌级似然性的依赖,使其对潜在的精度不匹配更具鲁棒性。这种鲁棒性允许直接使用推理引擎似然性,绕过昂贵的重新计算,并大大提高了涉及部分rollout和多轮强化学习场景的效率。最终,GSPO简化了大规模语言模型训练的整个RL基础设施。
总之,组序列策略优化(GSPO)代表了LLM强化学习训练的一个关键进展。通过建立在重要性采样的核心原则之上,并引入新颖的序列级剪裁、奖励和优化策略,GSPO有效地克服了困扰GRPO等先前算法的不稳定性和低效率。它在训练稳定性、效率和可扩展性方面表现出的卓越性能,特别是对于复杂的MoE模型,牢固地确立了其作为稳健算法基础的地位。GSPO促成的突破在Qwen3模型卓越的性能能力中发挥了关键作用,研究人员预计,以GSPO作为基础方法将为人工智能领域的突破性进展铺平道路。