Meta CLIP 2: Le 1er Modèle CLIP Multilingue Mondial de Zéro

Marktechpost

Le pré-entraînement contrastif langage-image (CLIP) est devenu une technologie fondamentale pour la vision par ordinateur moderne et les modèles d’IA multimodale, alimentant des capacités telles que la classification d’images zéro-shot et servant de composants visuels cruciaux au sein des grands modèles de langage multimodaux (MLLM). Cependant, l’adoption généralisée de CLIP a rencontré une limitation significative : la plupart des variantes, y compris Meta CLIP, se sont historiquement appuyées sur des ensembles de données uniquement en anglais pour leur entraînement. Cet oubli néglige une vaste richesse de contenu non-anglais disponible sur le web mondial, créant un goulot d’étranglement pour des applications d’IA véritablement universelles.

Le défi d’étendre CLIP au-delà de l’anglais est double. Premièrement, il y a une absence notable de méthodes efficaces pour organiser des données non-anglaises de haute qualité à l’échelle immense requise pour de tels modèles. Deuxièmement, l’intégration de données multilingues conduit souvent à un phénomène surnommé la “malédiction de la multilinguité”, où l’ajout de contenu non-anglais dégrade paradoxalement les performances sur les tâches en langue anglaise. Ces problèmes entrelacés ont gravement entravé le développement de modèles d’IA unifiés capables d’exceller dans des environnements linguistiques anglais et non-anglais.

Les tentatives précédentes pour résoudre ces limitations ont rencontré leurs propres obstacles. Des modèles comme OpenAI CLIP et le Meta CLIP original étaient intrinsèquement liés à la curation de données centrée sur l’anglais. Les approches basées sur la distillation, qui transfèrent des connaissances d’un modèle “enseignant” plus grand, introduisent souvent des biais provenant de ces sources externes. Tandis que SigLIP et SigLIP 2 ont exploré l’utilisation de données provenant de Google Image Search, leur dépendance à des sources propriétaires restreint la scalabilité. D’autres modèles CLIP multilingues, tels que M-CLIP et mCLIP, ont adopté la distillation, utilisant un CLIP uniquement anglais comme encodeur visuel et entraînant des encodeurs de texte multilingues avec des données de qualité inférieure. Des méthodes hybrides comme SLIP et LiT ont combiné la supervision linguistique avec l’apprentissage auto-supervisé, visant un équilibre entre la compréhension sémantique et la représentation visuelle. Pourtant, malgré ces efforts variés, aucun n’a entièrement résolu le dilemme central de la mise à l’échelle globale de CLIP sans compromis de performance.

Un effort de recherche collaboratif de Meta, du MIT, de l’Université de Princeton et de l’Université de New York a maintenant introduit Meta CLIP 2, marquant un bond en avant significatif. Cette nouvelle méthode est la première à entraîner des modèles CLIP de zéro en utilisant des paires image-texte natives du monde entier, contournant entièrement les ressources externes telles que les ensembles de données privés, la traduction automatique ou la distillation. Meta CLIP 2 vise à éliminer les compromis de performance entre les données anglaises et non-anglaises en concevant méticuleusement et en faisant évoluer conjointement ses métadonnées, ses processus de curation de données, sa capacité de modèle et ses méthodologies d’entraînement. De manière critique, il maximise la compatibilité avec l’architecture d’OpenAI CLIP, assurant une large applicabilité aux modèles CLIP existants et à leurs variantes.

L’innovation derrière la scalabilité globale de Meta CLIP 2 repose sur trois piliers clés : le développement de métadonnées scalables couvrant plus de 300 langues, un algorithme sophistiqué de curation par langue conçu pour assurer une distribution équilibrée des concepts, et un cadre d’entraînement avancé. Pour surmonter le défi de la disponibilité des données, les chercheurs ont tiré parti de données curées globalement. Pour la “malédiction de la multilinguité”, ils ont développé un cadre d’entraînement CLIP mondial qui reflète largement les paramètres et l’architecture de modèle établis par OpenAI et Meta CLIP, mais avec des ajouts cruciaux : un tokeniseur de texte multilingue, une stratégie pour faire évoluer les paires d’entraînement “vues”, et une analyse approfondie de la capacité minimale viable du modèle requise pour une performance optimale.

Pour assurer la généralisabilité, la configuration d’entraînement a incorporé les modèles ViT-L/14 d’OpenAI CLIP et ViT-H/14 de Meta CLIP, modifiés pour le support multilingue. Des études sur l’expressivité du modèle ont révélé que même le ViT-L/14 d’OpenAI luttait contre la “malédiction” en raison de sa capacité limitée face aux données mondiales. En revanche, le modèle ViT-H/14 plus grand s’est avéré être un point d’inflexion, réalisant des gains de performance notables dans les tâches anglaises et non-anglaises.

Entraîné sur le modèle ViT-H/14 avec des données mondiales et des paires vues mises à l’échelle, Meta CLIP 2 a démontré des performances supérieures, surpassant ses homologues uniquement anglais de 1,0x et ses homologues non-anglais de 1,3x dans les tâches anglaises et multilingues. Cependant, la “malédiction” persistait dans les configurations où la mise à l’échelle des données n’était pas appliquée ou lorsque des modèles plus petits comme ViT-L/14 étaient utilisés. La transition des métadonnées centrées sur l’anglais vers des équivalents mondiaux s’est avérée essentielle. Par exemple, la simple suppression du filtre anglais sur les “alt-texts” (balises d’image descriptives) a entraîné une légère baisse de 0,6 % de la précision d’ImageNet, soulignant l’impact de l’isolation linguistique. Inversement, le remplacement des métadonnées anglaises par des métadonnées mondiales fusionnées a initialement réduit les performances en anglais, mais a considérablement stimulé les capacités multilingues. Les évaluations sur les benchmarks de classification zéro-shot et de géo-localisation few-shot ont constamment montré des résultats améliorés lors de la mise à l’échelle de 13 milliards de paires anglaises à 29 milliards de paires mondiales, à l’exception d’une saturation des performances observée dans le benchmark GeoDE.

En substance, Meta CLIP 2 représente un changement de paradigme. C’est le premier modèle CLIP entraîné de zéro à une échelle véritablement mondiale en utilisant des paires image-texte natives. Son succès démontre qu’en mettant à l’échelle de manière stratégique les métadonnées, la curation et la capacité d’entraînement, la “malédiction de la multilinguité” de longue date peut être brisée, conduisant à des avantages mutuels pour les performances en anglais et en langues non-anglaises. La variante ViT-H/14 de Meta CLIP 2, par exemple, surpasse son homologue uniquement anglais sur ImageNet zéro-shot (passant de 80,5 % à 81,3 %) et obtient des résultats exceptionnels sur des benchmarks multilingues tels que XM3600, Babel-IN et CVQA, le tout au sein d’un seul modèle unifié. En rendant open-source ses métadonnées, ses méthodes de curation et son code d’entraînement, Meta CLIP 2 permet à la communauté de recherche mondiale de dépasser de manière décisive les approches centrées sur l’anglais, libérant ainsi tout le potentiel du web multimodal mondial.