NVIDIA ProRLv2: Quand l'apprentissage prolongé transforme les LLM
La dernière innovation de NVIDIA, ProRLv2 (Prolonged Reinforcement Learning v2), représente une avancée significative dans l’amélioration des capacités de raisonnement des grands modèles de langage (LLM). Cette nouvelle approche remet en question la sagesse conventionnelle en démontrant qu’en prolongeant substantiellement la durée des étapes d’apprentissage par renforcement (RL) – de 2 000 à 3 000, un chiffre sans précédent – les LLM peuvent débloquer de nouveaux espaces de solution, favoriser une plus grande créativité et atteindre un raisonnement de niveau supérieur, auparavant considéré comme inatteignable. Remarquablement, ces avancées sont évidentes même dans des modèles plus compacts, tels que le Nemotron-Research-Reasoning-Qwen-1.5B-v2 de 1,5 milliard de paramètres.
Pour réaliser ces percées, ProRLv2 intègre plusieurs innovations clés conçues pour atténuer les instabilités et les limitations inhérentes souvent rencontrées lors de l’application du RL à l’entraînement des LLM. Un composant essentiel est le REINFORCE+±Baseline, un algorithme de RL robuste conçu pour l’optimisation à long terme, permettant un apprentissage stable sur des milliers d’étapes. Une stabilité et une exploration accrues sont assurées par une combinaison de régularisation de la divergence KL et d’un mécanisme de réinitialisation de la politique de référence. Ce système rafraîchit périodiquement le modèle de référence avec le point de contrôle le plus performant actuel, empêchant l’objectif RL de dominer prématurément le processus d’entraînement et permettant un progrès continu et stable. La diversité des solutions générées est activement encouragée par le Decoupled Clipping et le Dynamic Sampling (DAPO), qui augmentent spécifiquement la probabilité de tokens moins courants et dirigent stratégiquement les signaux d’apprentissage vers des invites de difficulté intermédiaire. De plus, une pénalité de longueur planifiée appliquée cycliquement aide à maintenir la diversité et empêche le modèle de converger de manière trop étroite à mesure que l’entraînement s’allonge. L’innovation la plus directe, cependant, est l’acte même de faire évoluer l’horizon d’entraînement RL, testant explicitement jusqu’où un RL étendu peut repousser les limites du raisonnement.
L’impact pratique de ProRLv2 est illustré de manière frappante par les performances du Nemotron-Research-Reasoning-Qwen-1.5B-v2, un modèle entraîné avec ProRLv2 pendant les 3 000 étapes complètes de RL. Ce modèle compact établit une nouvelle référence pour les modèles de 1,5 milliard de paramètres en open-weight sur un large éventail de tâches de raisonnement, y compris les mathématiques complexes, les défis de codage, les problèmes scientifiques et les puzzles logiques. Ses performances non seulement surpassent les itérations précédentes, mais surclassent également les modèles rivaux de sa catégorie. Une observation critique est l’amélioration soutenue observée avec l’augmentation des étapes de RL ; un entraînement plus long conduit constamment à des gains, en particulier sur les tâches où les modèles de base ont initialement eu des difficultés, indiquant une véritable expansion des limites du raisonnement. De plus, ProRLv2 améliore significativement la généralisation, non seulement en augmentant la précision directe (pass@1), mais aussi en permettant au modèle de concevoir de nouvelles approches de raisonnement et stratégies de solution pour des tâches qu’il n’avait pas rencontrées pendant son entraînement. Les gains de référence sont substantiels, incluant des améliorations moyennes de la précision pass@1 de 14,7 % en mathématiques, 13,9 % en codage, un remarquable 54,8 % dans les puzzles logiques, 25,1 % en raisonnement STEM, et 18,1 % dans les tâches de suivi d’instructions, avec d’autres améliorations notées sur des benchmarks inédits et plus difficiles dans son itération v2.
La conclusion générale de ProRLv2 est profonde : l’apprentissage par renforcement continu, lorsqu’il est méticuleusement appliqué avec des techniques d’exploration et de régularisation minutieuses, étend de manière fiable la capacité d’apprentissage et de généralisation des grands modèles de langage. Plutôt que d’atteindre un plateau de performance précoce ou de surajuster, l’entraînement RL prolongé permet même aux modèles plus petits d’atteindre une prouesse de raisonnement comparable à celle de leurs homologues beaucoup plus grands. Cela suggère que l’échelle du processus RL lui-même est aussi critique pour l’avancement des capacités de l’IA que l’augmentation de la taille du modèle ou du volume de données. ProRLv2 redéfinit fondamentalement les limites perçues du raisonnement dans les modèles de langage, soulignant que l’avenir du développement de l’IA pourrait résider non seulement dans l’échelle pure des modèles, mais dans la profondeur et la durée pendant lesquelles leur apprentissage peut être étendu grâce à un apprentissage par renforcement sophistiqué.