Meta CLIP 2: El Primer CLIP Multilingüe Global Entrenado Desde Cero

Marktechpost

El Preentrenamiento Contrastivo de Lenguaje e Imagen (CLIP) ha emergido como una tecnología fundamental para la visión por computadora moderna y los modelos de IA multimodal, impulsando capacidades como la clasificación de imágenes de cero-shot y sirviendo como componentes visuales cruciales dentro de los modelos de lenguaje grandes multimodales (MLLM). Sin embargo, la adopción generalizada de CLIP ha encontrado una limitación significativa: la mayoría de sus variantes, incluida Meta CLIP, han dependido históricamente de conjuntos de datos solo en inglés para su entrenamiento. Esta omisión descuida una vasta cantidad de contenido no inglés disponible en la web global, creando un cuello de botella para aplicaciones de IA verdaderamente universales.

El desafío de expandir CLIP más allá del inglés es doble. En primer lugar, existe una notable ausencia de métodos eficientes para curar datos no ingleses de alta calidad a la inmensa escala requerida para tales modelos. En segundo lugar, la integración de datos multilingües a menudo conduce a un fenómeno denominado la “maldición de la multilingüidad”, donde la adición de contenido no inglés degrada paradójicamente el rendimiento en tareas en inglés. Estas cuestiones interconectadas han obstaculizado gravemente el desarrollo de modelos de IA unificados capaces de sobresalir tanto en entornos lingüísticos ingleses como no ingleses.

Intentos previos para abordar estas limitaciones han enfrentado sus propios obstáculos. Modelos como OpenAI CLIP y el Meta CLIP original estaban inherentemente ligados a la curación de datos centrada en inglés. Los enfoques basados en destilación, que transfieren conocimiento de un modelo “maestro” más grande, a menudo introducen sesgos de estas fuentes externas. Mientras que SigLIP y SigLIP 2 exploraron el uso de datos de Google Image Search, su dependencia de fuentes propietarias restringe la escalabilidad. Otros modelos CLIP multilingües, como M-CLIP y mCLIP, adoptaron la destilación, utilizando un CLIP solo en inglés como codificador visual y entrenando codificadores de texto multilingües con datos de menor calidad. Métodos híbridos como SLIP y LiT combinaron la supervisión del lenguaje con el aprendizaje auto-supervisado, buscando un equilibrio entre la comprensión semántica y la representación visual. Sin embargo, a pesar de estos variados esfuerzos, ninguno resolvió completamente el dilema central de escalar CLIP globalmente sin comprometer el rendimiento.

Un esfuerzo de investigación colaborativo de Meta, MIT, la Universidad de Princeton y la Universidad de Nueva York ha presentado ahora Meta CLIP 2, marcando un salto significativo. Este nuevo método es el primero en entrenar modelos CLIP desde cero utilizando pares nativos de imagen-texto de todo el mundo, obviando por completo recursos externos como conjuntos de datos privados, traducción automática o destilación. Meta CLIP 2 busca eliminar los compromisos de rendimiento entre datos en inglés y no en inglés mediante el diseño meticuloso y la escalada conjunta de sus metadatos, procesos de curación de datos, capacidad del modelo y metodologías de entrenamiento. Críticamente, maximiza la compatibilidad con la arquitectura de OpenAI CLIP, asegurando una amplia aplicabilidad a los modelos CLIP existentes y sus variantes.

La innovación detrás de la escalabilidad global de Meta CLIP 2 se basa en tres pilares clave: el desarrollo de metadatos escalables que abarcan más de 300 idiomas, un sofisticado algoritmo de curación por idioma diseñado para asegurar una distribución equilibrada de conceptos, y un marco de entrenamiento avanzado. Para superar el desafío de la disponibilidad de datos, los investigadores aprovecharon datos curados globalmente. Para la “maldición de la multilingüidad”, desarrollaron un marco de entrenamiento CLIP mundial que refleja en gran medida la configuración y arquitectura de modelos establecidas de OpenAI y Meta CLIP, pero con adiciones cruciales: un tokenizador de texto multilingüe, una estrategia para escalar pares de entrenamiento “vistos”, y un análisis exhaustivo de la capacidad mínima viable del modelo requerida para un rendimiento óptimo.

Para asegurar la generalizabilidad, la configuración de entrenamiento incorporó los modelos ViT-L/14 de OpenAI CLIP y ViT-H/14 de Meta CLIP, modificados para soporte multilingüe. Estudios sobre la expresividad del modelo revelaron que incluso el ViT-L/14 de OpenAI luchaba con la “maldición” debido a su capacidad limitada cuando se enfrentaba a datos globales. En contraste, el modelo ViT-H/14 más grande demostró ser un punto de inflexión, logrando ganancias de rendimiento notables tanto en tareas en inglés como en no inglés.

Cuando se entrenó con el modelo ViT-H/14 y datos mundiales y pares “vistos” escalados, Meta CLIP 2 demostró un rendimiento superior, superando a sus contrapartes solo en inglés en 1.0x y a las no inglesas en 1.3x tanto en tareas en inglés como multilingües. Sin embargo, la “maldición” persistió en configuraciones donde no se aplicó el escalado de datos o cuando se utilizaron modelos más pequeños como ViT-L/14. La transición de metadatos centrados en inglés a equivalentes mundiales resultó esencial. Por ejemplo, simplemente eliminar el filtro de inglés en los “alt-texts” (etiquetas de imagen descriptivas) llevó a una ligera caída del 0.6% en la precisión de ImageNet, subrayando el impacto del aislamiento del idioma. Por el contrario, reemplazar los metadatos en inglés con metadatos mundiales fusionados inicialmente disminuyó el rendimiento en inglés, pero impulsó significativamente las capacidades multilingües. Las evaluaciones en los benchmarks de clasificación de cero-shot y geo-localización de pocos-shot mostraron consistentemente resultados mejorados al escalar de 13 mil millones de pares en inglés a 29 mil millones de pares mundiales, con la excepción de la saturación de rendimiento observada en el benchmark GeoDE.

En esencia, Meta CLIP 2 representa un cambio de paradigma. Es el primer modelo CLIP entrenado desde cero a escala verdaderamente global utilizando pares nativos de imagen-texto. Su éxito demuestra que, al escalar estratégicamente los metadatos, la curación y la capacidad de entrenamiento, la “maldición de la multilingüidad” de larga data puede romperse, lo que lleva a beneficios mutuos para el rendimiento en inglés y en idiomas no ingleses. La variante ViT-H/14 de Meta CLIP 2, por ejemplo, supera a su contraparte solo en inglés en ImageNet de cero-shot (mejorando del 80.5% al 81.3%) y logra resultados sobresalientes en benchmarks multilingües como XM3600, Babel-IN y CVQA, todo dentro de un único modelo unificado. Al abrir su código de metadatos, métodos de curación y entrenamiento, Meta CLIP 2 empodera a la comunidad de investigación global para ir más allá de los enfoques centrados en inglés, liberando todo el potencial de la web multimodal mundial.