Meta CLIP 2: Weltweit erstes mehrsprachiges CLIP-Modell

Marktechpost

Kontrastives Sprach-Bild-Vortraining (CLIP) hat sich als grundlegende Technologie für moderne Computer Vision und multimodale KI-Modelle etabliert. Es ermöglicht Funktionen wie die Zero-Shot-Bildklassifizierung und dient als entscheidende visuelle Komponente in multimodalen großen Sprachmodellen (MLLMs). Die weit verbreitete Akzeptanz von CLIP stieß jedoch auf eine erhebliche Einschränkung: Die meisten Varianten, einschließlich Meta CLIP, stützten sich historisch auf englischsprachige Datensätze für ihr Training. Diese Übersehen vernachlässigt eine riesige Menge nicht-englischer Inhalte, die im globalen Web verfügbar sind, und schafft so einen Engpass für wirklich universelle KI-Anwendungen.

Die Herausforderung, CLIP über das Englische hinaus zu erweitern, ist zweifach. Erstens fehlt es an effizienten Methoden zur Kuratierung hochwertiger, nicht-englischer Daten in dem für solche Modelle erforderlichen riesigen Maßstab. Zweitens führt die Integration mehrsprachiger Daten oft zu einem Phänomen, das als „Fluch der Mehrsprachigkeit“ bezeichnet wird, bei dem das Hinzufügen nicht-englischer Inhalte paradoxerweise die Leistung bei englischsprachigen Aufgaben verschlechtert. Diese miteinander verknüpften Probleme haben die Entwicklung einheitlicher KI-Modelle, die sowohl in englischen als auch in nicht-englischen Sprachumgebungen hervorragende Leistungen erbringen können, stark behindert.

Frühere Versuche, diese Einschränkungen zu beheben, stießen auf eigene Hürden. Modelle wie OpenAI CLIP und das ursprüngliche Meta CLIP waren untrennbar mit englischzentrierter Datenkuratierung verbunden. Destillationsbasierte Ansätze, die Wissen von einem größeren „Lehrer“-Modell übertragen, führten oft zu Verzerrungen aus diesen externen Quellen. Während SigLIP und SigLIP 2 die Verwendung von Daten aus der Google Bildersuche untersuchten, schränkte ihre Abhängigkeit von proprietären Quellen die Skalierbarkeit ein. Andere mehrsprachige CLIP-Modelle, wie M-CLIP und mCLIP, setzten auf Destillation, indem sie ein rein englisches CLIP als visuellen Encoder verwendeten und mehrsprachige Text-Encoder mit Daten geringerer Qualität trainierten. Hybride Methoden wie SLIP und LiT kombinierten Sprachüberwachung mit selbstüberwachtem Lernen, um ein Gleichgewicht zwischen semantischem Verständnis und visueller Darstellung zu finden. Doch trotz dieser vielfältigen Bemühungen löste keine von ihnen das Kerndilemma der globalen Skalierung von CLIP ohne Leistungseinbußen vollständig.

Eine gemeinsame Forschungsanstrengung von Meta, MIT, der Princeton University und der New York University hat nun Meta CLIP 2 vorgestellt, was einen bedeutenden Fortschritt darstellt. Diese neue Methode ist die erste, die CLIP-Modelle von Grund auf unter Verwendung nativer weltweiter Bild-Text-Paare trainiert, wobei externe Ressourcen wie private Datensätze, maschinelle Übersetzung oder Destillation vollständig umgangen werden. Meta CLIP 2 zielt darauf ab, die Leistungseinbußen zwischen englischen und nicht-englischen Daten zu eliminieren, indem es seine Metadaten, Datenkuratierungsprozesse, Modellkapazität und Trainingsmethoden sorgfältig entwirft und gemeinsam skaliert. Entscheidend ist, dass es die Kompatibilität mit der Architektur von OpenAI CLIP maximiert und so eine breite Anwendbarkeit auf bestehende CLIP-Modelle und deren Varianten gewährleistet.

Die Innovation hinter der globalen Skalierbarkeit von Meta CLIP 2 ruht auf drei Schlüsselsäulen: der Entwicklung skalierbarer Metadaten, die über 300 Sprachen umfassen, einem ausgeklügelten pro-Sprache-Kuratierungsalgorithmus, der eine ausgewogene Verteilung von Konzepten gewährleisten soll, und einem fortschrittlichen Trainingsrahmen. Um die Herausforderung der Datenverfügbarkeit zu überwinden, nutzten die Forscher global kuratierte Daten. Für den „Fluch der Mehrsprachigkeit“ entwickelten sie einen weltweiten CLIP-Trainingsrahmen, der die etablierten Einstellungen und Modellarchitekturen von OpenAI und Meta CLIP weitgehend widerspiegelt, jedoch mit entscheidenden Ergänzungen: einem mehrsprachigen Text-Tokenisierer, einer Strategie zur Skalierung „gesehener“ Trainingspaare und einer gründlichen Analyse der minimal benötigten Modellkapazität für optimale Leistung.

Um die Generalisierbarkeit zu gewährleisten, wurden im Trainingsaufbau die ViT-L/14-Modelle von OpenAI CLIP und die ViT-H/14-Modelle von Meta CLIP integriert, die für mehrsprachige Unterstützung modifiziert wurden. Studien zur Modell-Expressivität zeigten, dass selbst OpenAIs ViT-L/14 aufgrund seiner begrenzten Kapazität im Umgang mit globalen Daten mit dem „Fluch“ zu kämpfen hatte. Im Gegensatz dazu erwies sich das größere ViT-H/14-Modell als Wendepunkt, der sowohl bei englischen als auch bei nicht-englischen Aufgaben bemerkenswerte Leistungssteigerungen erzielte.

Als Meta CLIP 2 mit dem ViT-H/14-Modell unter Verwendung weltweiter Daten und skalierter „gesehener“ Paare trainiert wurde, zeigte es eine überragende Leistung und übertraf seine rein englischen Gegenstücke um das 1,0-fache und seine nicht-englischen Gegenstücke um das 1,3-fache bei englischen und mehrsprachigen Aufgaben. Der „Fluch“ blieb jedoch in Einstellungen bestehen, in denen die Datenskalierung nicht angewendet wurde oder wenn kleinere Modelle wie ViT-L/14 verwendet wurden. Der Übergang von englischzentrierten Metadaten zu weltweiten Äquivalenten erwies sich als wesentlich. Zum Beispiel führte das einfache Entfernen des englischen Filters für „Alt-Texte“ (beschreibende Bild-Tags) zu einem leichten Rückgang der ImageNet-Genauigkeit um 0,6 %, was die Auswirkungen der Sprachisolation unterstreicht. Umgekehrt führte das Ersetzen englischer Metadaten durch zusammengeführte weltweite Metadaten zunächst zu einer Verringerung der englischen Leistung, steigerte aber die mehrsprachigen Fähigkeiten erheblich. Bewertungen bei Zero-Shot-Klassifizierungs- und Few-Shot-Geo-Lokalisierungs-Benchmarks zeigten durchweg verbesserte Ergebnisse beim Skalieren von 13 Milliarden englischen Paaren auf 29 Milliarden weltweite Paare, mit Ausnahme der beobachteten Leistungssättigung im GeoDE-Benchmark.

Im Wesentlichen stellt Meta CLIP 2 einen Paradigmenwechsel dar. Es ist das erste CLIP-Modell, das von Grund auf in wirklich globalem Maßstab unter Verwendung nativer Bild-Text-Paare trainiert wurde. Sein Erfolg zeigt, dass durch die strategische Skalierung von Metadaten, Kuratierung und Trainingskapazität der langjährige „Fluch der Mehrsprachigkeit“ gebrochen werden kann, was zu gegenseitigen Vorteilen für die Leistung in englischer und nicht-englischer Sprache führt. Die ViT-H/14-Variante von Meta CLIP 2 übertrifft beispielsweise ihr rein englisches Gegenstück bei Zero-Shot ImageNet (Verbesserung von 80,5 % auf 81,3 %) und erzielt hervorragende Ergebnisse bei mehrsprachigen Benchmarks wie XM3600, Babel-IN und CVQA, alles innerhalb eines einzigen, vereinheitlichten Modells. Durch die Offenlegung seiner Metadaten, Kuratierungsmethoden und Trainingscodes ermöglicht Meta CLIP 2 der globalen Forschungsgemeinschaft, sich entschlossen über englischzentrierte Ansätze hinaus zu bewegen und das volle Potenzial des weltweiten multimodalen Webs freizusetzen.