NVIDIA ProRLv2: Más allá del tamaño, la clave para la IA razonadora
La última innovación de NVIDIA, ProRLv2 (Prolonged Reinforcement Learning v2), representa un avance significativo en la mejora de las capacidades de razonamiento de los grandes modelos de lenguaje (LLM). Este nuevo enfoque desafía la sabiduría convencional al demostrar que al extender sustancialmente la duración de los pasos de aprendizaje por refuerzo (RL), de 2.000 a unos sin precedentes 3.000, los LLM pueden desbloquear nuevos espacios de solución, fomentar una mayor creatividad y lograr un razonamiento de nivel superior que antes se consideraba inalcanzable. Sorprendentemente, estos avances son evidentes incluso en modelos más compactos, como el Nemotron-Research-Reasoning-Qwen-1.5B-v2 de 1.500 millones de parámetros.
Para lograr estos avances, ProRLv2 integra varias innovaciones clave diseñadas para mitigar las inestabilidades y limitaciones inherentes que a menudo se encuentran al aplicar RL al entrenamiento de LLM. Un componente central es el REINFORCE+±Baseline, un robusto algoritmo de RL diseñado para la optimización a largo plazo, que permite un aprendizaje estable a lo largo de miles de pasos. La estabilidad y la exploración adicionales se garantizan mediante una combinación de regularización de divergencia KL y un mecanismo de reinicio de política de referencia. Este sistema actualiza periódicamente el modelo de referencia con el punto de control de mejor rendimiento actual, evitando que el objetivo de RL domine prematuramente el proceso de entrenamiento y permitiendo un progreso continuo y estable. La diversidad en las soluciones generadas se fomenta activamente mediante el recorte desacoplado y el muestreo dinámico (DAPO), que aumenta específicamente la probabilidad de tokens menos comunes y dirige estratégicamente las señales de aprendizaje hacia indicaciones de dificultad intermedia. Además, una penalización de longitud programada aplicada cíclicamente ayuda a mantener la diversidad y evita que el modelo converja de forma demasiado estrecha a medida que se alarga el entrenamiento. Sin embargo, la innovación más directa es el propio acto de escalar el horizonte de entrenamiento de RL, probando explícitamente hasta dónde puede llevar el RL extendido los límites del razonamiento.
El impacto práctico de ProRLv2 se ilustra vívidamente con el rendimiento de Nemotron-Research-Reasoning-Qwen-1.5B-v2, un modelo entrenado con ProRLv2 durante los 3.000 pasos completos de RL. Este modelo compacto establece un nuevo punto de referencia para los modelos de 1.500 millones de parámetros de peso abierto en una amplia gama de tareas de razonamiento, incluyendo matemáticas complejas, desafíos de codificación, problemas científicos y rompecabezas de lógica. Su rendimiento no solo supera las iteraciones anteriores, sino que también supera a los modelos rivales de su clase. Una observación crítica es la mejora sostenida que se observa con el aumento de los pasos de RL; un entrenamiento más largo conduce consistentemente a ganancias, particularmente en tareas donde los modelos base inicialmente tuvieron dificultades, lo que indica una verdadera expansión de los límites del razonamiento. Además, ProRLv2 mejora significativamente la generalización, no solo aumentando la precisión directa (pass@1), sino también permitiendo que el modelo desarrolle enfoques de razonamiento y estrategias de solución novedosas para tareas que no había encontrado durante su entrenamiento. Las ganancias en los puntos de referencia son sustanciales, incluyendo mejoras promedio en la precisión de pass@1 del 14,7% en matemáticas, 13,9% en codificación, un notable 54,8% en rompecabezas de lógica, 25,1% en razonamiento STEM y 18,1% en tareas de seguimiento de instrucciones, con mejoras adicionales observadas en puntos de referencia previamente no vistos y más desafiantes en su iteración v2.
El hallazgo general de ProRLv2 es profundo: el aprendizaje por refuerzo continuo, cuando se aplica meticulosamente con técnicas cuidadosas de exploración y regularización, expande de manera confiable la capacidad de aprendizaje y generalización de los grandes modelos de lenguaje. En lugar de alcanzar una meseta de rendimiento temprana o sobreajustarse, el entrenamiento prolongado de RL permite que incluso los modelos más pequeños logren una destreza de razonamiento comparable a la de contrapartes mucho más grandes. Esto sugiere que escalar el propio proceso de RL es tan crítico para avanzar en las capacidades de la IA como aumentar el tamaño del modelo o el volumen del conjunto de datos. ProRLv2 redefine fundamentalmente los límites percibidos del razonamiento en los modelos de lenguaje, subrayando que el futuro del desarrollo de la IA puede residir no solo en la escala pura de los modelos, sino en la profundidad y duración a la que su aprendizaje puede extenderse a través de un aprendizaje por refuerzo sofisticado.