VL-Cogito: Faire progresser le Raisonnement Multimodal avec PCuRL

Marktechpost

Le raisonnement multimodal, processus complexe par lequel les modèles d’intelligence artificielle intègrent et interprètent des informations provenant de diverses sources comme le texte, les images et les diagrammes, reste une frontière significative dans le développement de l’IA. Pour relever ce défi, DAMO Academy (Groupe Alibaba) et ses collaborateurs ont introduit VL-Cogito, un Modèle de Langage Multimodal (MLLM) de pointe. Ce système innovant tire parti d’un pipeline d’apprentissage par renforcement robuste pour améliorer fondamentalement les capacités de raisonnement des grands modèles dans un large éventail de domaines, y compris les mathématiques, la science, la logique, l’interprétation de graphiques et la compréhension générale.

Au cœur de l’approche unique de VL-Cogito se trouve le cadre d’Apprentissage par Renforcement à Curriculum Progressif (PCuRL), spécifiquement conçu pour atténuer l’instabilité et les lacunes de domaine souvent rencontrées dans les tâches de raisonnement multimodal. Ce cadre intègre deux innovations pivotales. La première, la Pondération Douce de la Difficulté en Ligne (ODSW), ajuste dynamiquement l’accent mis sur les échantillons d’entraînement en fonction de leur difficulté inhérente et de la compétence évolutive du modèle. Contrairement aux mécanismes de filtrage rigides qui pourraient rejeter les exemples “faciles” ou “difficiles”, ODSW garantit que chaque requête contribue de manière appropriée aux mises à jour de gradient, permettant au modèle de progresser sans heurts des cas simples aux cas de plus en plus complexes et stimulants grâce à une courbe d’apprentissage continue. Ceci est réalisé en utilisant une fonction de pondération qui s’adapte aux performances du modèle à différentes étapes de difficulté, guidée par les principes d’apprenabilité.

La deuxième innovation clé est la Récompense de Longueur Dynamique (DyLR). Les récompenses traditionnelles à longueur fixe dans les modèles d’apprentissage par renforcement ne parviennent souvent pas à tenir compte des complexités variables des tâches, encourageant parfois par inadvertance des sorties trop verbeuses ou inutilement concises. DyLR résout ce problème en calculant une longueur de réponse cible optimale pour chaque requête, estimée à partir de la longueur moyenne des chemins de raisonnement réussis pour des questions similaires. Ce mécanisme adaptatif favorise un raisonnement rapide et efficace pour les tâches plus simples, tout en incitant à une exploration plus profonde et multi-étapes lors de l’abordage de problèmes complexes, établissant ainsi un équilibre crucial entre efficacité et précision.

Le pipeline de post-entraînement par apprentissage par renforcement de VL-Cogito commence directement à partir de la base Qwen2.5-VL-Instruct-7B, ne nécessitant remarquablement aucun “démarrage à froid” initial de réglage fin supervisé (SFT). Le processus PCuRL est méticuleusement structuré en trois étapes séquentielles d’apprentissage par renforcement : facile, moyen et difficile. À chaque étape, le même ensemble de données complet est mélangé pour exposer le modèle à divers défis de généralisation. La fonction de pondération d’ODSW est appliquée pour biaiser les mises à jour de gradient vers la difficulté cible pour cette étape particulière, tandis que DyLR est spécifiquement activé pendant l’étape “difficile” pour encourager le modèle à étendre de manière adaptative ses chaînes de raisonnement si nécessaire. L’entraînement utilise des techniques d’optimisation standard telles que l’optimiseur AdamW avec un taux d’apprentissage de 1e-6 et DeepSpeed-ZeRO3 pour l’entraînement distribué, ainsi que des hyperparamètres soigneusement ajustés pour le calcul des récompenses et la génération de réponses.

Les données d’entraînement sont dérivées d’un ensemble méticuleusement organisé de 23 ensembles de données multimodaux open source, couvrant six grandes catégories de tâches : raisonnement mathématique, raisonnement logique, comptage, raisonnement scientifique, compréhension de graphiques et compréhension générale d’images. Tous les échantillons sont reformulés en formats de questions-réponses ouvertes pour empêcher le modèle d’exploiter des indices superficiels courants dans les questions à choix multiples. Pour garantir que l’ensemble d’entraînement se concentre exclusivement sur des tâches réellement difficiles, une méthode d’échantillonnage de difficulté unique a été employée : tout échantillon que le modèle Qwen2.5-VL-7B-Instruct pouvait répondre avec une précision de 50 % ou plus sur huit exécutions a été exclu.

Les performances de VL-Cogito ont été rigoureusement comparées à la fois aux MLLM à usage général et aux MLLM axés sur le raisonnement sur un panel de dix tâches diverses, y compris des ensembles de données bien connus comme Geometry@3K, MathVerse, MathVista, ChartQA, ScienceQA, MMMU, EMMA et MMStar. Le modèle a démontré des gains de précision absolue significatifs par rapport à sa base Qwen2.5-VL, y compris une amélioration de 7,6 % sur Geometry@3K, 5,5 % sur MathVista et 4,9 % sur LogicVista. Notamment, VL-Cogito a atteint des résultats de pointe sur 6 des 10 benchmarks, menant ou égalant constamment les meilleures performances, en particulier sur les tâches exigeantes de raisonnement mathématique et scientifique. Son approche robuste d’apprentissage par renforcement basée sur le curriculum s’est avérée supérieure même aux modèles qui ont commencé avec un réglage fin supervisé ou ont employé des stratégies de repensée forcée. Par exemple, VL-Cogito a obtenu un score de 68,7 % sur Geometry@3K contre 67,7 % pour VL-Rethinker et 61,6 % pour le Qwen2.5-VL de base.

Une étude d’ablation par composant a en outre mis en évidence les contributions des innovations de VL-Cogito. L’apprentissage par renforcement à curriculum progressif à lui seul a augmenté les scores moyens de 0,8 % par rapport à une base d’apprentissage par renforcement standard. Le mécanisme de récompense de longueur dynamique a fourni des gains de performance supplémentaires, en particulier dans les domaines mathématiques complexes. De plus, ODSW a constamment surpassé le filtrage binaire plus simple des échantillons difficiles, en particulier dans des conditions de données d’entraînement déséquilibrées ou asymétriques.

L’analyse de l’efficacité du raisonnement et de la dynamique de l’entraînement a révélé que les récompenses dynamiques ont conduit à une précision moyenne plus élevée et à une efficacité de jetons supérieure par rapport aux schémas de récompense à longueur fixe. Comme prévu, le mécanisme de longueur adaptative a entraîné des chaînes de raisonnement plus longues pour les tâches mathématiques et logiques complexes, tout en favorisant des réponses plus courtes et plus directes pour les problèmes scientifiques et de compréhension générale. L’étape “difficile” du PCuRL a notamment induit une augmentation significative de la longueur du raisonnement et de la précision de validation, surpassant les performances d’une approche d’apprentissage par renforcement standard dont la précision a plafonné malgré des longueurs de sortie statiques.

Des études de cas illustrent les capacités de raisonnement sophistiquées de VL-Cogito. Pour les problèmes mathématiques, le modèle présente un raisonnement détaillé, autoréflexif et par étapes, décomposant les solutions en chaînes granulaires et corrigeant activement ses propres erreurs – un comportement inculqué par le processus de vérification de l’apprentissage par renforcement. Dans les tâches de classification, telles que l’identification d’objets spécifiques dans des images, il considère méthodiquement chaque option avant de parvenir à une conclusion, démontrant une forte compréhension multimodale et une fiabilité de processus.

Le pipeline systématique PCuRL valide plusieurs informations critiques pour l’avancement de l’IA multimodale. Il souligne que les requêtes de difficulté intermédiaire sont optimales pour la progression du modèle, et que l’exposition à un défi croissant est cruciale pour développer une profondeur analytique durable, tandis qu’une insistance excessive sur des échantillons faciles peut dégrader les performances. La recherche souligne également l’importance de structures de récompense granulaires qui combinent exactitude, format et longueur pour faciliter des sorties de raisonnement nuancées et sensibles au contexte. Enfin, VL-Cogito démontre qu’une approche d’apprentissage par renforcement “sans démarrage à froid SFT” est non seulement faisable mais très efficace, contournant potentiellement le besoin de coûteux échauffements de réglage fin supervisé.

L’architecture innovante et les méthodologies d’entraînement de VL-Cogito établissent une nouvelle référence pour le raisonnement multimodal dans divers domaines. La validation empirique de l’apprentissage par renforcement à curriculum progressif, associée aux récompenses de longueur dynamique, fournit une feuille de route claire pour développer des capacités de raisonnement plus robustes et adaptables dans les futurs modèles d’IA multimodale.