L'optimiseur Muon du MIT stabilise les Transformers avec les bornes de Lipschitz
L’entraînement stable de modèles transformeurs à grande échelle a longtemps été un défi majeur en apprentissage profond, d’autant plus que ces modèles continuent de croître en taille et en complexité. Des chercheurs du MIT ont abordé un problème fondamental : la croissance incontrôlée des valeurs d’activation et les pics de perte qui en résultent pendant l’entraînement, souvent causés par des normes de poids et d’activation non contraintes.
Leur solution innovante consiste à imposer des “bornes de Lipschitz prouvables” aux transformeurs. Ceci est réalisé en régulant directement les propriétés spectrales des poids du modèle, sans recourir à des techniques de stabilisation courantes comme la normalisation d’activation, la normalisation QK ou le softcapping des logits.
Comprendre les bornes de Lipschitz et leur importance
Une borne de Lipschitz sur un réseau neuronal quantifie le taux maximal auquel la sortie du réseau peut changer en réponse à des perturbations de son entrée ou de ses poids internes. En termes plus simples, une borne de Lipschitz plus basse indique que le réseau est moins sensible aux petits changements ou au bruit, ce qui le rend plus robuste et prévisible. Cette propriété est cruciale pour assurer la stabilité pendant l’entraînement, améliorer la robustesse aux attaques adverses (résistance aux manipulations d’entrée malveillantes), améliorer la confidentialité et favoriser une meilleure généralisation aux nouvelles données.
Le problème avec les méthodes de stabilisation traditionnelles
Historiquement, la stabilité des grands transformeurs a impliqué une variété de solutions “pansements”, telles que la normalisation de couches (Layer Normalization), la normalisation QK (QK Normalization) et le softcapping Logit Tanh (Logit Tanh Softcapping). Bien que ces méthodes offrent une certaine stabilité, elles ne s’attaquent pas directement à la cause sous-jacente de l’instabilité : la croissance incontrôlée de la “norme spectrale” (la plus grande valeur singulière) au sein des matrices de poids. Cette croissance non contrainte est un moteur principal des activations explosives et de l’instabilité de l’entraînement, en particulier dans les très grands modèles.
L’hypothèse centrale de l’équipe du MIT est qu’en régulant directement les propriétés spectrales des poids eux-mêmes – allant au-delà du simple optimiseur ou des activations – ils peuvent maintenir un contrôle strict sur la Lipschitz du réseau, abordant ainsi l’instabilité à sa source.
Innovations clés : Optimiseur Muon et Régulation Spectrale des Poids
L’approche des chercheurs s’appuie sur l’optimiseur “Muon”, qui régularise déjà spectralement les gradients, garantissant que chaque étape de gradient n’augmente pas la norme spectrale au-delà d’une limite définie. L’innovation clé du MIT étend cette régulation aux poids du modèle : après chaque étape d’entraînement, ils appliquent des opérations pour plafonner les valeurs singulières de chaque matrice de poids. Les valeurs singulières sont des composants mathématiques qui décrivent à quel point une matrice étire ou rétrécit les entrées ; les plafonner contrôle directement le facteur d’amplification des poids.
Un résultat remarquable de cette régulation des poids est que les normes d’activation – les magnitudes des valeurs au sein des couches du réseau – restent exceptionnellement petites. Dans leurs transformeurs à l’échelle de GPT-2, les entrées d’activation maximales n’ont jamais dépassé environ 100. Cela contraste fortement avec les lignes de base non contraintes, où les activations maximales pouvaient dépasser 148 000. De manière cruciale, cette stabilité a été obtenue sans utiliser aucune des normalisations de couche traditionnelles, de la norme QK ou des astuces logit tanh. Les petites magnitudes d’activation rendent également ces modèles compatibles avec des formats de données de faible précision comme FP8, ce qui est très bénéfique pour un déploiement matériel efficace.
Méthodes pour imposer des contraintes de Lipschitz
Les chercheurs ont exploré et comparé diverses méthodes pour imposer des contraintes de norme de poids, évaluant leur capacité à maintenir des performances élevées, à garantir une borne de Lipschitz et à optimiser le compromis entre performance et Lipschitzness :
Décroissance de poids (Weight Decay) : Une méthode de régularisation standard, mais pas toujours précise pour contrôler la norme spectrale.
Normalisation spectrale (Spectral Normalization) : Plafonne la plus grande valeur singulière d’une matrice de poids, mais peut affecter toutes les valeurs singulières globalement.
Soft Cap spectral (Spectral Soft Cap) : Une nouvelle technique qui plafonne de manière douce et efficace toutes les valeurs singulières en parallèle. Cette méthode a été spécifiquement co-conçue pour fonctionner efficacement avec les mises à jour de rang stable de Muon, permettant des bornes plus strictes.
Marteau spectral (Spectral Hammer) : Une méthode qui ne définit que la plus grande valeur singulière à un maximum, mieux adaptée pour une utilisation avec l’optimiseur AdamW.
Résultats expérimentaux et perspectives
La recherche a démontré des résultats significatifs à diverses échelles de modèles :
Évaluation du modèle : Pour les transformeurs plus petits (comme Shakespeare, avec une borne de Lipschitz prouvable inférieure à 2), la méthode a atteint une précision de validation de 60 % et a surpassé les lignes de base non contraintes en termes de perte de validation. Pour les modèles plus grands comme NanoGPT (145 millions de paramètres), une borne de Lipschitz stricte inférieure à 10 a donné une précision de validation de 21,2 %. Pour égaler les performances d’une ligne de base forte non contrainte (39,4 % de précision), une borne supérieure beaucoup plus grande (par exemple, 10^264) était nécessaire. Cela met en évidence le compromis actuel entre des contraintes de Lipschitz très strictes et l’atteinte d’une expressivité maximale à des échelles plus grandes.
Efficacité des méthodes de contrainte : La combinaison de l’optimiseur Muon avec Spectral Soft Cap a constamment mené la frontière dans le compromis perte-Lipschitz, atteignant des constantes de Lipschitz plus faibles avec une perte de validation comparable ou meilleure par rapport à AdamW avec décroissance de poids.
Stabilité et Robustesse : Les modèles entraînés avec une constante de Lipschitz contrainte ont montré une robustesse aux attaques adverses significativement accrue, subissant des baisses de précision beaucoup plus légères sous des attaques adverses par rapport aux lignes de base non contraintes.
Magnitudes d’activation : Comme noté, la régulation spectrale des poids a maintenu les activations maximales constamment petites, même à l’échelle. Cela ouvre de nouvelles voies pour l’“entraînement et l’inférence de basse précision” dans le matériel, où des activations plus petites peuvent réduire drastiquement les coûts de calcul, de mémoire et d’énergie.
Limitations et orientations futures
Malgré ces avancées, la recherche identifie plusieurs questions ouvertes et limitations :
Le choix du compromis optimal entre les normes de poids, la mise à l’échelle des logits et la mise à l’échelle de l’attention repose encore largement sur des balayages empiriques plutôt que sur des méthodes fondées sur des principes.
Les bornes de Lipschitz globales actuelles calculées pour les modèles peuvent être astronomiquement grandes (par exemple, 10^264), même lorsque les normes d’activation réelles restent très petites. Cela indique que les bornes théoriques sont souvent beaucoup plus lâches que le comportement observé.
Il n’est pas encore clair si l’égalité des performances des lignes de base non contraintes avec des bornes de Lipschitz strictement petites est réalisable à mesure que l’échelle du modèle continue d’augmenter. Des recherches supplémentaires sont nécessaires dans ce domaine.
Conclusion
Les travaux des chercheurs du MIT démontrent que la régulation spectrale des poids, en particulier lorsqu’elle est intégrée à l’optimiseur Muon, offre une méthode puissante pour entraîner de manière stable de grands transformeurs avec des bornes de Lipschitz imposées. Cette approche élimine le besoin de normalisation d’activation traditionnelle et d’autres astuces de stabilisation ad hoc, abordant l’instabilité à un niveau plus profond et plus fondamental. En maintenant les activations dans une plage compacte et prévisible, la méthode améliore considérablement la robustesse aux attaques adverses et offre un potentiel substantiel pour améliorer l’efficacité du matériel grâce au déploiement d’IA de faible précision. Cette recherche ouvre la voie à de nouvelles primitives computationnelles efficaces pour la régulation des réseaux neuronaux, avec de larges implications pour la sécurité, la confidentialité et le déploiement pratique des systèmes d’IA avancés.