TRL推出先进VLM对齐方法:GRPO、GSPO、MPO

Huggingface

视觉语言模型(VLM)旨在解释图像并与图像和文本进行交互,其能力正在迅速提升。然而,将这些强大的模型与细致入微的人类偏好对齐,仍然是其有效部署的关键一步。尽管TRL(Transformers强化学习)库此前已通过监督微调(SFT)和直接偏好优化(DPO)在VLM的后训练中取得了成功,但最近的进展进一步拓展了其边界。

传统上,VLM对齐包括一个初始的SFT阶段,用于教导模型遵循指令,随后通过DPO根据偏好数据细化其响应。DPO通过优化模型输出对(“选择的”和“拒绝的”答案)之间的对比损失来运作,以引导模型朝向期望的行为。然而,这种成对方法存在局限性,促使了更复杂的多模态对齐方法的出现,例如混合偏好优化(MPO)、组相对策略优化(GRPO)及其变体组序列策略优化(GSPO)。这些创新技术从偏好数据中提取更丰富的信号,并能与现代复杂的VLM更有效地扩展。

混合偏好优化(MPO)直接解决了仅用SFT或DPO对齐的模型中发现的缺点。SFT对齐的模型在推理任务中可能难以应对分布偏移,而DPO对齐的模型有时会产生重复响应或缺乏连贯的理由。MPO通过将DPO与组合损失函数相结合来解决这个问题。该函数整合了标准的DPO偏好损失、来自二元分类器优化(BCO)的质量损失以及来自SFT的生成损失。这种三方方法已显示出显著改进,一篇论文报告称,仅通过切换到这种组合损失,就在具有挑战性的MathVista基准测试中获得了6.2分的提升。将MPO集成到TRL的DPOTrainer类中非常简单,只需几行配置即可激活组合损失类型及其相应的权重。

另一个重要进展是组相对策略优化(GRPO),它首次随DeepSeek Math和DeepSeek R1大型语言模型一同推出。GRPO通过对对话轨迹的组或批次执行策略更新来增强近端策略优化(PPO)。这种基于组的学习使GRPO对奖励信号中的噪声更具弹性,因为噪声往往会在组内平均抵消。通过学习更广泛意义上的“良好”响应,而不是专注于孤立的高奖励样本,GRPO能够产生高性能模型。TRL现在支持视觉语言模型的GRPO,需要定义奖励函数来验证答案格式和解决方案的准确性。例如,一个奖励函数可能检查响应是否符合特定结构,而另一个则评估所提供的数学解决方案的准确性。

在GRPO的基础上,组序列策略优化(GSPO)是一种更近期的强化学习对齐算法。由Qwen开发,GSPO通过在序列级别而非每个token计算重要性采样权重,确保更稳定的训练,从而克服了GRPO的一些局限性。这一区别使得GSPO对专家混合(MoE)风格的模型特别相关和有益。TRL的最新版本集成了GSPO,利用其多模态支持,其配置与GRPO类似,但包含额外的参数,如importance_sampling_level="sequence",以启用其独特特性。

初步评估,例如在数据子集上微调Qwen2.5VL-3B,揭示了这些新方法的有效性。尽管这些“初步验证”(vibe-check)比较并非详尽的基准测试,但它们展示了明显的差异。基础模型可能在复杂的几何问题上表现出困难,出现循环推理或未能从给定选项中得出正确答案。MPO虽然仍表现出一些犹豫,但开始展示出更结构化的方法。至关重要的是,GRPO和GSPO的输出始终提供更直接、连贯和准确的推理,通常通过应用适当的几何定理直接得出正确解决方案,这与基础模型的探索性且常错误的尝试不同。

为了便于使用这些先进的对齐方法,TRL集成了vLLM,一个高吞吐量的推理引擎。这种集成对于需要在训练期间生成样本的在线对齐方法至关重要。vLLM可以在两种主要模式下运行:“共存”(colocate),即它与训练循环在同一进程中运行并共享GPU资源;或“服务器”(server),这允许vLLM作为独立服务运行,供训练过程查询。这种灵活性,加上对带有Hugging Face Transformers后端的vLLM的支持,显著提高了TRL中VLM对齐工作流的效率和可扩展性。

TRL中这些新型多模态对齐方法代表了视觉语言模型精炼的重大飞跃。通过超越简单的成对偏好,利用更丰富的信号和更鲁棒的优化技术,它们使开发人员能够构建出不仅理解,而且能以更高准确性、连贯性并更符合人类意图进行响应的VLM。