TRL Dévoile des Méthodes d'Alignement VLM Avancées : GRPO, GSPO, MPO

Huggingface

Les modèles de langage visuels (VLM), conçus pour interpréter et interagir avec des images et du texte, progressent rapidement en capacités. Pourtant, l’étape cruciale d’alignement de ces puissants modèles avec les préférences humaines nuancées reste primordiale pour leur déploiement efficace. Bien que la bibliothèque TRL (Transformers Reinforcement Learning) ait précédemment démontré son succès dans le post-entraînement des VLM via le Supervised Fine-Tuning (SFT) et l’Optimisation Directe des Préférences (DPO), les développements récents repoussent encore les limites.

Traditionnellement, l’alignement des VLM impliquait une phase initiale de SFT pour apprendre aux modèles à suivre des instructions, suivie d’une DPO pour affiner leurs réponses basées sur des données préférées. La DPO fonctionne en optimisant une perte contrastive entre des paires de sorties de modèle – une réponse « choisie » et une « rejetée » – pour guider le modèle vers les comportements souhaités. Cependant, cette approche par paires a des limites, ce qui a conduit à l’émergence de méthodes d’alignement multimodal plus sophistiquées comme l’Optimisation des Préférences Mixtes (MPO), l’Optimisation de Politique Relative de Groupe (GRPO) et sa variante, l’Optimisation de Politique de Séquence de Groupe (GSPO). Ces techniques innovantes extraient des signaux plus riches des données de préférence et s’adaptent plus efficacement aux VLM modernes et complexes.

L’Optimisation des Préférences Mixtes (MPO) aborde directement les lacunes rencontrées dans les modèles alignés uniquement avec SFT ou DPO. Alors que les modèles alignés avec SFT peuvent avoir du mal avec les changements de distribution dans les tâches de raisonnement, les modèles alignés avec DPO produisent parfois des réponses répétitives ou manquent de justifications cohérentes. MPO résout ce problème en étendant DPO avec une fonction de perte combinée. Cette fonction intègre la perte de préférence DPO standard, une perte de qualité de l’Optimisation du Classifieur Binaire (BCO) et une perte de génération de SFT. Cette approche tripartite a montré des améliorations significatives, avec un article rapportant un gain de 6,2 points sur le difficile benchmark MathVista simplement en passant à cette perte combinée. L’intégration de MPO dans la classe DPOTrainer de TRL est simplifiée, ne nécessitant que quelques lignes de configuration pour activer les types de perte combinés et leurs poids correspondants.

Une autre avancée significative est l’Optimisation de Politique Relative de Groupe (GRPO), introduite pour la première fois avec les grands modèles de langage DeepSeek Math et DeepSeek R1. GRPO améliore l’Optimisation de Politique Proximale (PPO) en effectuant des mises à jour de politique sur des groupes ou des lots de trajectoires de dialogue. Cet apprentissage basé sur des groupes rend GRPO plus résilient au bruit dans les signaux de récompense, car le bruit a tendance à se moyenner sur l’ensemble du groupe. En apprenant un sens plus large des “bonnes” réponses plutôt que de se concentrer sur des échantillons isolés à forte récompense, GRPO produit des modèles très performants. TRL prend désormais en charge GRPO pour les modèles de langage visuels, nécessitant la définition de fonctions de récompense pour valider les formats de réponse et la précision des solutions. Par exemple, une fonction de récompense pourrait vérifier si une réponse adhère à une structure spécifique, tandis qu’une autre évalue la précision de la solution mathématique fournie.

S’appuyant sur GRPO, l’Optimisation de Politique de Séquence de Groupe (GSPO) est un algorithme d’alignement par apprentissage par renforcement plus récent. Développé par Qwen, GSPO surmonte certaines des limitations de GRPO en assurant un entraînement plus stable grâce au calcul des poids d’échantillonnage par importance au niveau de la séquence, plutôt que par token. Cette distinction rend GSPO particulièrement pertinent et bénéfique pour les modèles de type Mélange d’Experts (MoE). La dernière version de TRL intègre GSPO, tirant parti de son support multimodal, avec une configuration similaire à GRPO mais incluant des paramètres supplémentaires comme importance_sampling_level="sequence" pour activer ses caractéristiques uniques.

Des évaluations préliminaires, telles que le fine-tuning de Qwen2.5VL-3B sur des sous-ensembles de données, offrent un aperçu de l’efficacité de ces nouvelles méthodes. Bien que ces comparaisons de « vérification de l’ambiance » ne soient pas des benchmarks exhaustifs, elles démontrent une nette différence. Un modèle de base pourrait avoir des difficultés avec des problèmes géométriques complexes, présentant un raisonnement circulaire ou ne parvenant pas à la bonne réponse parmi les choix donnés. MPO, bien que montrant encore une certaine hésitation, commence à démontrer une approche plus structurée. Surtout, les sorties de GRPO et GSPO fournissent systématiquement un raisonnement plus direct, cohérent et précis, conduisant souvent directement à la bonne solution en appliquant les théorèmes géométriques appropriés, contrairement aux tentatives exploratoires et souvent incorrectes du modèle de base.

Pour faciliter l’utilisation de ces méthodes d’alignement avancées, TRL a intégré vLLM, un moteur d’inférence à haut débit. Cette intégration est cruciale pour les méthodes d’alignement en ligne qui nécessitent la génération d’échantillons pendant l’entraînement. vLLM peut fonctionner dans deux modes principaux : « colocalisé » (colocate), où il s’exécute dans le même processus que la boucle d’entraînement et partage les ressources GPU, ou « serveur » (server), ce qui permet à vLLM de fonctionner comme un service distinct que le processus d’entraînement peut interroger. Cette flexibilité, associée au support de vLLM avec le backend Hugging Face Transformers, améliore considérablement l’efficacité et la scalabilité des workflows d’alignement VLM au sein de TRL.

Ces nouvelles méthodes d’alignement multimodal dans TRL représentent un bond significatif dans l’affinage des modèles de langage visuels. En allant au-delà des simples préférences par paires pour exploiter des signaux plus riches et des techniques d’optimisation plus robustes, elles permettent aux développeurs de construire des VLM qui non seulement comprennent, mais aussi répondent avec une plus grande précision, cohérence et alignement avec l’intention humaine.