VL-Cogito:以PCuRL推动多模态推理新高度
多模态推理是人工智能模型整合并解释来自文本、图像和图表等不同来源信息这一复杂过程,它仍然是人工智能发展中的一个重要前沿领域。为应对这一挑战,达摩院(阿里巴巴集团)及其合作者推出了VL-Cogito,一个最先进的多模态大语言模型(MLLM)。这个创新系统利用强大的强化学习流水线,从根本上增强了大型模型在数学、科学、逻辑、图表解读和通用理解等广泛领域的推理能力。
VL-Cogito独特方法的核心是渐进式课程强化学习(PCuRL)框架,该框架专门设计用于缓解多模态推理任务中常见的训练不稳定性和领域差距。该框架包含了两个关键创新。第一个是在线难度软加权(ODSW),它根据训练样本的固有难度和模型不断提高的熟练程度,动态调整对训练样本的侧重。与可能丢弃“简单”或“困难”示例的刚性过滤机制不同,ODSW确保每个提示都适当地贡献于梯度更新,使模型能够通过连续的学习曲线,从简单的案例无缝地进步到日益复杂和具有挑战性的案例。这是通过一个根据模型在不同难度阶段的表现而自适应的加权函数实现的,并遵循可学习性原则。
第二个关键创新是动态长度奖励(DyLR)。强化学习模型中传统的固定长度奖励往往未能考虑任务复杂性的差异,有时会无意中鼓励过于冗长或不必要地简洁的输出。DyLR通过计算每个提示的最佳目标响应长度来解决这个问题,该长度是根据类似问题的成功推理路径的平均长度估算的。这种自适应机制促进了简单任务的快速高效推理,同时在处理复杂问题时鼓励更深入、多步骤的探索,从而在效率和准确性之间取得了关键的平衡。
VL-Cogito的强化学习后训练流水线直接从Qwen2.5-VL-Instruct-7B主干模型开始,值得注意的是,它无需初始的监督微调(SFT)“冷启动”。PCuRL过程被精心构造为三个顺序的强化学习阶段:简单、中等和困难。在每个阶段,都会打乱相同的综合数据集,以使模型接触到不同的泛化挑战。ODSW的加权函数被应用于偏向该特定阶段目标难度的梯度更新,而DyLR则在“困难”阶段特意激活,以鼓励模型根据需要自适应地扩展其推理链。训练利用标准的优化技术,如学习率为1e-6的AdamW优化器和用于分布式训练的DeepSpeed-ZeRO3,以及为奖励计算和响应生成精心调整的超参数。
训练数据来源于23个精心策划的开源多模态数据集,涵盖六大任务类别:数学推理、逻辑推理、计数、科学推理、图表理解和通用图像理解。所有样本都被重新格式化为开放式问答形式,以防止模型利用多项选择题中常见的表面线索。为了确保训练集只专注于真正具有挑战性的任务,采用了独特的难度采样方法:任何Qwen2.5-VL-7B-Instruct模型在八次运行中能以50%或更高准确率回答的样本都被排除在外。
VL-Cogito的性能在十项不同任务的面板上,针对通用型和推理导向型MLLM进行了严格的基准测试,包括Geometry@3K、MathVerse、MathVista、ChartQA、ScienceQA、MMMU、EMMA和MMStar等知名数据集。该模型相对于其Qwen2.5-VL主干模型表现出显著的绝对精度提升,包括在Geometry@3K上提升7.6%,MathVista上提升5.5%,LogicVista上提升4.9%。值得注意的是,VL-Cogito在10个基准测试中有6个取得了最先进的结果,在要求苛刻的数学和科学推理任务上,始终领先或与顶级性能持平。其强大的、基于课程的强化学习方法甚至优于那些从监督微调开始或采用强制重思考策略的模型。例如,VL-Cogito在Geometry@3K上的得分为68.7%,而VL-Rethinker为67.7%,基础Qwen2.5-VL为61.6%。
一项组件级消融研究进一步凸显了VL-Cogito创新的贡献。仅渐进式课程强化学习就将平均分数比香草强化学习基线提高了0.8%。动态长度奖励机制提供了额外的性能增益,尤其是在复杂的数学领域。此外,ODSW始终优于简单的二元硬样本过滤,特别是在训练数据不平衡或倾斜的条件下。
对推理效率和训练动态的分析表明,与固定长度奖励方案相比,动态奖励带来了更高的平均准确率和卓越的token效率。正如预期,自适应长度机制使得复杂的数学和逻辑任务具有更长的推理链,而对于科学和通用理解问题则倾向于更短、更直接的响应。PCuRL的“困难”阶段显著增加了推理长度和验证准确率,超越了香草强化学习方法的性能,后者尽管输出长度静态,但准确率却趋于平稳。
案例研究展示了VL-Cogito复杂的推理能力。对于数学问题,模型表现出详细的、自我反思的和逐步的推理,将解决方案分解为细粒度的链条,并主动纠正自身的错误——这是强化学习验证过程所灌输的行为。在分类式任务中,例如识别图像中的特定对象,它在得出结论之前系统地考虑每个选项,展示出强大的多模态理解和过程可靠性。
系统性的PCuRL流水线验证了推进多模态AI的几项关键见解。它强调,中等难度的提示对模型进步最有利,并且接触日益增加的挑战对于建立持久的分析深度至关重要,而过度强调简单样本则可能降低性能。这项研究还强调了细粒度奖励结构的重要性,该结构结合了正确性、格式和长度,以促进细致入微、上下文敏感的推理输出。最后,VL-Cogito表明,“无SFT冷启动”强化学习方法不仅可行,而且高效,可能绕过昂贵的监督微调预热的需求。
VL-Cogito的创新架构和训练方法为跨不同领域的多模态推理设定了新的基准。渐进式课程强化学习与动态长度奖励的实证验证,为未来多模态AI模型开发更强大和适应性更强的推理能力提供了清晰的路线图。