GSPO d'Alibaba: RL stable pour LLM, propulsant les modèles Qwen3
L’apprentissage par renforcement (RL) est devenu une technologie cruciale pour la mise à l’échelle des grands modèles de langage (LLM), leur permettant de s’attaquer à des défis très complexes tels que les mathématiques de niveau compétition et les tâches de programmation complexes grâce à un raisonnement plus approfondi. Cependant, un obstacle significatif persiste : atteindre des dynamiques d’entraînement stables et fiables lors de la mise à l’échelle du RL avec des ressources de calcul toujours plus grandes. Les algorithmes de pointe actuels, notamment GRPO, rencontrent fréquemment de graves problèmes de stabilité lors de l’entraînement de modèles de langage colossaux, conduisant souvent à des échecs catastrophiques. Ces instabilités proviennent de l’application incorrecte des poids d’échantillonnage par importance, qui introduisent un bruit à variance élevée. Ce bruit s’intensifie avec des réponses de modèle plus longues et est exacerbé par les mécanismes de découpage, entraînant finalement l’effondrement du modèle et entravant les progrès.
Les méthodes existantes comme PPO et GRPO tentent de relever les défis de l’apprentissage hors politique — où les modèles apprennent à partir de données générées par des politiques obsolètes — par des mécanismes tels que le découpage. Pourtant, ces approches sont limitées par leurs objectifs mal posés, en particulier lorsqu’elles sont appliquées à des modèles massifs gérant des tâches à longue réponse. La dépendance de GRPO à l’échantillonnage par importance au niveau du jeton, par exemple, génère un bruit à variance élevée qui peut déclencher un effondrement irréversible du modèle. Les tentatives de récupération de tels effondrements, que ce soit par un réglage méticuleux des hyperparamètres ou par la restauration de points de contrôle, s’avèrent souvent vaines, soulignant un défaut fondamental dans leur conception. L’inadéquation inhérente entre les corrections au niveau du jeton et les récompenses au niveau de la séquence met en évidence un besoin pressant d’une nouvelle approche qui optimise directement au niveau de la séquence pour garantir à la fois la stabilité et l’évolutivité.
En réponse à ces défis, les chercheurs d’Alibaba Inc. ont introduit l’Optimisation de Politique de Séquence de Groupe (GSPO), un algorithme de RL innovant spécifiquement conçu pour l’entraînement des LLM. La principale percée de GSPO réside dans son rapport d’importance théoriquement fondé, qui est dérivé de la vraisemblance de séquences entières, s’alignant plus étroitement avec les principes de l’échantillonnage par importance. De plus, il calcule des récompenses normalisées comme des avantages à travers plusieurs réponses à une seule requête, favorisant la cohérence entre les récompenses au niveau de la séquence et les objectifs d’optimisation globaux. Les évaluations empiriques ont constamment démontré que GSPO surpasse significativement GRPO en termes de stabilité, d’efficacité et de performance globale. En résolvant efficacement les problèmes de stabilité fréquemment rencontrés lors de l’entraînement de grands modèles de Mélange d’Experts (MoE), GSPO élimine le besoin de techniques de stabilisation complexes, souvent fastidieuses.
Les chercheurs ont mené leurs expériences en utilisant un modèle de démarrage à froid affiné à partir de Qwen3-30B-A3B-Base, en suivant méticuleusement les courbes de récompense d’entraînement et les performances du modèle sur des bancs d’essai exigeants tels que AIME’24, LiveCodeBench et CodeForces. Pendant l’entraînement, les données de déploiement de chaque lot ont été systématiquement divisées en quatre mini-lots pour les mises à jour de gradient. Une distinction critique de GSPO est son approche du découpage : il découpe des réponses entières plutôt que des jetons individuels, avec des plages de découpage généralement fixées à 3e-4 et 4e-4 dans sa formulation. Cela se traduit par une différence de deux ordres de grandeur dans les fractions de jetons découpés par rapport à GRPO. Remarquablement, malgré la suppression d’une plus grande proportion de jetons pour l’estimation du gradient, GSPO atteint une efficacité d’entraînement supérieure. Ce résultat souligne puissamment l’inefficacité inhérente des estimations bruyantes de GRPO au niveau du jeton.
GSPO offre des avantages substantiels, en particulier pour l’entraînement de modèles MoE, en stabilisant le processus grâce à des activations d’experts cohérentes à travers les mises à jour de gradient — un contraste frappant avec GRPO, qui est souvent aux prises avec la volatilité de l’activation des experts. Cette innovation annule la nécessité de solutions complexes comme le Rejeu de Routage, simplifiant l’infrastructure sous-jacente et permettant aux modèles d’utiliser pleinement leur capacité inhérente. Au sein de l’infrastructure RL plus large, l’optimisation au niveau de la séquence de GSPO réduit significativement sa dépendance aux vraisemblances précises au niveau du jeton, la rendant plus robuste aux éventuels décalages de précision. Cette robustesse permet l’utilisation directe des vraisemblances du moteur d’inférence, évitant un recalcul coûteux et améliorant considérablement l’efficacité dans les scénarios impliquant des déploiements partiels et l’apprentissage par renforcement multi-tours. En fin de compte, GSPO rationalise l’ensemble de l’infrastructure RL pour l’entraînement de modèles de langage à grande échelle.
En conclusion, l’Optimisation de Politique de Séquence de Groupe (GSPO) représente une avancée pivot dans l’apprentissage par renforcement pour l’entraînement des LLM. En s’appuyant sur les principes fondamentaux de l’échantillonnage par importance et en introduisant de nouvelles stratégies de découpage, de récompense et d’optimisation au niveau de la séquence, GSPO surmonte efficacement l’instabilité et l’inefficacité qui ont affligé les algorithmes antérieurs comme GRPO. Ses performances supérieures démontrées en termes de stabilité d’entraînement, d’efficacité et d’évolutivité, en particulier pour les modèles MoE complexes, l’établissent fermement comme une base algorithmique robuste. Les percées facilitées par GSPO ont joué un rôle crucial dans les capacités de performance remarquables des modèles Qwen3, et les chercheurs anticipent que la construction sur GSPO comme approche fondamentale ouvrira la voie à des progrès révolutionnaires en intelligence artificielle.