GSPO de Alibaba: RL estable para LLM, impulsando los modelos Qwen3

El aprendizaje por refuerzo (RL) ha emergido como una tecnología crucial para escalar grandes modelos de lenguaje (LLM), permitiéndoles abordar desafíos altamente complejos como matemáticas a nivel de competición y tareas de programación intrincadas a través de un razonamiento más profundo. Sin embargo, persiste un obstáculo significativo: lograr dinámicas de entrenamiento estables y fiables al escalar RL con recursos computacionales cada vez mayores. Los algoritmos de vanguardia actuales, notablemente GRPO, con frecuencia encuentran graves problemas de estabilidad durante el entrenamiento de modelos de lenguaje colosales, lo que a menudo lleva a fallos catastróficos. Estas inestabilidades provienen de la aplicación incorrecta de los pesos de muestreo por importancia, que introducen ruido de alta varianza. Este ruido se intensifica con respuestas de modelo más largas y se exacerba con los mecanismos de recorte, lo que finalmente causa el colapso del modelo e impide el progreso.

Los métodos existentes como PPO y GRPO intentan abordar los desafíos del aprendizaje fuera de política —donde los modelos aprenden de datos generados por políticas desactualizadas— a través de mecanismos como el recorte. Sin embargo, estos enfoques están limitados por sus objetivos mal planteados, particularmente cuando se aplican a modelos masivos que manejan tareas de respuesta larga. La dependencia de GRPO del muestreo por importancia a nivel de token, por ejemplo, genera ruido de alta varianza que puede desencadenar un colapso irreversible del modelo. Los intentos de recuperarse de tales colapsos, ya sea mediante una meticulosa sintonización de hiperparámetros o la restauración de puntos de control, a menudo resultan inútiles, lo que subraya un defecto fundamental en su diseño. La falta de coincidencia inherente entre las correcciones a nivel de token y las recompensas a nivel de secuencia destaca una necesidad apremiante de un nuevo enfoque que optimice directamente a nivel de secuencia para garantizar tanto la estabilidad como la escalabilidad.

En respuesta a estos desafíos, los investigadores de Alibaba Inc. han introducido la Optimización de Políticas de Secuencia Grupal (GSPO), un algoritmo de RL innovador diseñado específicamente para entrenar LLM. El avance principal de GSPO radica en su relación de importancia teóricamente fundamentada, que se deriva de la probabilidad de secuencias completas, alineándose más estrechamente con los principios del muestreo por importancia. Además, calcula recompensas normalizadas como ventajas a través de múltiples respuestas a una sola consulta, fomentando la coherencia entre las recompensas a nivel de secuencia y los objetivos de optimización generales. Las evaluaciones empíricas han demostrado consistentemente que GSPO supera significativamente a GRPO en términos de estabilidad, eficiencia y rendimiento general. Al resolver eficazmente los problemas de estabilidad que se encuentran con frecuencia al entrenar grandes modelos de Mezcla de Expertos (MoE), GSPO elimina la necesidad de técnicas de estabilización complejas y a menudo engorrosas.

Los investigadores realizaron sus experimentos utilizando un modelo de arranque en frío ajustado a partir de Qwen3-30B-A3B-Base, siguiendo meticulosamente las curvas de recompensa de entrenamiento y el rendimiento del modelo en puntos de referencia exigentes como AIME’24, LiveCodeBench y CodeForces. Durante el entrenamiento, los datos de despliegue en cada lote se dividieron sistemáticamente en cuatro mini-lotes para las actualizaciones de gradiente. Una distinción crítica de GSPO es su enfoque de recorte: recorta respuestas completas en lugar de tokens individuales, con rangos de recorte típicamente establecidos en 3e-4 y 4e-4 en su formulación. Esto resulta en una diferencia de dos órdenes de magnitud en las fracciones de token recortadas en comparación con GRPO. Sorprendentemente, a pesar de eliminar una mayor proporción de tokens para la estimación de gradiente, GSPO logra una eficiencia de entrenamiento superior. Este resultado subraya poderosamente la ineficiencia inherente de las estimaciones ruidosas a nivel de token de GRPO.

GSPO ofrece ventajas sustanciales, particularmente para el entrenamiento de modelos MoE, al estabilizar el proceso a través de activaciones de expertos consistentes en las actualizaciones de gradiente, un marcado contraste con GRPO, que a menudo lidia con la volatilidad de la activación de expertos. Esta innovación niega la necesidad de soluciones intrincadas como Routing Replay, simplificando la infraestructura subyacente y permitiendo que los modelos utilicen plenamente su capacidad inherente. Dentro de la infraestructura de RL más amplia, la optimización a nivel de secuencia de GSPO reduce significativamente su dependencia de las probabilidades precisas a nivel de token, lo que la hace más robusta a posibles desajustes de precisión. Esta robustez permite el uso directo de las probabilidades del motor de inferencia, evitando costosos recálculos y mejorando considerablemente la eficiencia en escenarios que involucran despliegues parciales y aprendizaje por refuerzo de múltiples turnos. En última instancia, GSPO agiliza toda la infraestructura de RL para el entrenamiento de modelos de lenguaje a gran escala.

En conclusión, la Optimización de Políticas de Secuencia Grupal (GSPO) representa un avance fundamental en el aprendizaje por refuerzo para el entrenamiento de LLM. Al basarse en los principios centrales del muestreo por importancia e introducir nuevas estrategias de recorte, recompensa y optimización a nivel de secuencia, GSPO supera eficazmente la inestabilidad y la ineficiencia que han plagado algoritmos anteriores como GRPO. Su rendimiento superior demostrado en estabilidad de entrenamiento, eficiencia y escalabilidad, especialmente para modelos MoE complejos, lo establece firmemente como una base algorítmica robusta. Los avances facilitados por GSPO han desempeñado un papel crucial en las notables capacidades de rendimiento de los modelos Qwen3, y los investigadores anticipan que construir sobre GSPO como un enfoque fundamental allanará el camino para un progreso innovador en inteligencia artificial.

GSPO de Alibaba: RL estable para LLM, impulsando los modelos Qwen3

Artículos Relacionados

Tiramisu de Meta: El Prototipo VR que Roza la Visión Humana, Pese a su Tamaño

Google Gemini vulnerable: Prompts ocultos en invitaciones de calendario

ChatGPT es vulnerable a fugas de datos mediante documentos 'envenenados'