TRL Presenta Métodos Avanzados de Alineación VLM: GRPO, GSPO, MPO

Huggingface

Los Modelos de Lenguaje de Visión (VLM), diseñados para interpretar e interactuar con imágenes y texto, están avanzando rápidamente en capacidad. Sin embargo, el paso crítico de alinear estos potentes modelos con las preferencias humanas matizadas sigue siendo primordial para su despliegue efectivo. Si bien la biblioteca TRL (Transformers Reinforcement Learning) demostró previamente éxito en el post-entrenamiento de VLM a través del Ajuste Fino Supervisado (SFT) y la Optimización Directa de Preferencias (DPO), los desarrollos recientes empujan aún más los límites.

Tradicionalmente, la alineación de VLM implicaba una fase inicial de SFT para enseñar a los modelos a seguir instrucciones, seguida de DPO para refinar sus respuestas basadas en datos preferidos. DPO opera optimizando una pérdida contrastiva entre pares de salidas del modelo – una respuesta “elegida” y una “rechazada” – para guiar al modelo hacia los comportamientos deseados. Sin embargo, este enfoque por pares tiene limitaciones, lo que ha impulsado la aparición de métodos de alineación multimodal más sofisticados como la Optimización de Preferencias Mixtas (MPO), la Optimización de Política Relativa Grupal (GRPO) y su variante, la Optimización de Política de Secuencia Grupal (GSPO). Estas técnicas innovadoras extraen señales más ricas de los datos de preferencia y escalan de manera más efectiva con los VLM modernos y complejos.

La Optimización de Preferencias Mixtas (MPO) aborda directamente las deficiencias encontradas en modelos alineados únicamente con SFT o DPO. Mientras que los modelos alineados con SFT pueden tener dificultades con los cambios de distribución en tareas de razonamiento, los modelos alineados con DPO a veces producen respuestas repetitivas o carecen de razonamientos coherentes. MPO resuelve esto extendiendo DPO con una función de pérdida combinada. Esta función integra la pérdida de preferencia DPO estándar, una pérdida de calidad de la Optimización de Clasificador Binario (BCO) y una pérdida de generación de SFT. Este enfoque tripartito ha mostrado mejoras significativas, con un artículo informando una ganancia de 6.2 puntos en el desafiante benchmark MathVista simplemente al cambiar a esta pérdida combinada. La integración de MPO en la clase DPOTrainer de TRL está optimizada, requiriendo solo unas pocas líneas de configuración para activar los tipos de pérdida combinados y sus pesos correspondientes.

Otro avance significativo es la Optimización de Política Relativa Grupal (GRPO), introducida por primera vez con los modelos de lenguaje grandes DeepSeek Math y DeepSeek R1. GRPO mejora la Optimización de Política Proximal (PPO) al realizar actualizaciones de política sobre grupos o lotes de trayectorias de diálogo. Este aprendizaje basado en grupos hace que GRPO sea más resistente al ruido en las señales de recompensa, ya que el ruido tiende a promediarse en todo el grupo. Al aprender un sentido más amplio de respuestas “buenas” en lugar de centrarse en muestras aisladas de alta recompensa, GRPO produce modelos de alto rendimiento. TRL ahora es compatible con GRPO para modelos de lenguaje de visión, requiriendo la definición de funciones de recompensa para validar formatos de respuesta y la precisión de la solución. Por ejemplo, una función de recompensa podría verificar si una respuesta se adhiere a una estructura específica, mientras que otra evalúa la precisión de la solución matemática proporcionada.

Basándose en GRPO, la Optimización de Política de Secuencia Grupal (GSPO) es un algoritmo de alineación de aprendizaje por refuerzo más reciente. Desarrollado por Qwen, GSPO supera algunas de las limitaciones de GRPO al asegurar un entrenamiento más estable mediante el cálculo de pesos de muestreo por importancia a nivel de secuencia, en lugar de por token. Esta distinción hace que GSPO sea particularmente relevante y beneficiosa para los modelos de estilo Mezcla de Expertos (MoE). La última versión de TRL incorpora GSPO, aprovechando su soporte multimodal, con una configuración similar a GRPO pero incluyendo parámetros adicionales como importance_sampling_level="sequence" para habilitar sus características únicas.

Las evaluaciones preliminares, como el ajuste fino de Qwen2.5VL-3B en subconjuntos de datos, ofrecen un vistazo a la eficacia de estos nuevos métodos. Si bien estas comparaciones de “verificación de ambiente” no son puntos de referencia exhaustivos, demuestran una clara diferencia. Un modelo base podría tener dificultades con problemas geométricos complejos, exhibiendo un razonamiento circular o fallando en llegar a la respuesta correcta dentro de las opciones dadas. MPO, aunque todavía muestra cierta vacilación, comienza a demostrar un enfoque más estructurado. Fundamentalmente, las salidas de GRPO y GSPO proporcionan consistentemente un razonamiento más directo, coherente y preciso, a menudo llevando directamente a la solución correcta mediante la aplicación de los teoremas geométricos apropiados, a diferencia de los intentos exploratorios y a menudo incorrectos del modelo base.

Para facilitar el uso de estos métodos de alineación avanzados, TRL ha integrado vLLM, un motor de inferencia de alto rendimiento. Esta integración es crucial para los métodos de alineación en línea que necesitan generar muestras durante el entrenamiento. vLLM puede operar en dos modos principales: “colocalizado” (colocate), donde se ejecuta dentro del mismo proceso que el bucle de entrenamiento y comparte recursos de GPU, o “servidor” (server), que permite a vLLM ejecutarse como un servicio separado que el proceso de entrenamiento puede consultar. Esta flexibilidad, junto con el soporte para vLLM con el backend de Hugging Face Transformers, mejora significativamente la eficiencia y escalabilidad de los flujos de trabajo de alineación de VLM dentro de TRL.

Estos nuevos métodos de alineación multimodal en TRL representan un salto significativo en el refinamiento de los Modelos de Lenguaje de Visión. Al ir más allá de las simples preferencias por pares para aprovechar señales más ricas y técnicas de optimización más robustas, empoderan a los desarrolladores para construir VLM que no solo comprenden, sino que también responden con mayor precisión, coherencia y alineación con la intención humana.