Meta CLIP 2:首个全球多语言CLIP模型,从零开始打破语言壁垒

Marktechpost

对比语言-图像预训练(CLIP)已成为现代计算机视觉和多模态AI模型的基础技术,它支持零样本图像分类等功能,并在多模态大型语言模型(MLLM)中作为关键的视觉组件。然而,CLIP的广泛采用遇到了一个显著的局限性:包括Meta CLIP在内的大多数变体,历来都依赖于仅限英语的数据集进行训练。这种疏忽忽略了全球网络上丰富的非英语内容,为真正通用的AI应用制造了瓶颈。

将CLIP扩展到英语之外的挑战是双重的。首先,缺乏高效的方法来大规模地策划高质量的非英语数据,以满足此类模型的需求。其次,整合多语言数据常常导致一种被称为“多语言诅咒”的现象,即添加非英语内容反而会降低在英语任务上的表现。这些相互交织的问题严重阻碍了能够同时在英语和非英语语言环境中表现出色的统一AI模型的开发。

之前解决这些局限性的尝试也面临着各自的障碍。像OpenAI CLIP和原始Meta CLIP这样的模型,其数据策划本质上是以英语为中心的。基于知识蒸馏的方法,即将知识从更大的“教师”模型转移过来,常常会引入这些外部来源的偏差。虽然SigLIP和SigLIP 2探索了使用Google图片搜索的数据,但它们对专有资源的依赖限制了可扩展性。其他多语言CLIP模型,如M-CLIP和mCLIP,采用了蒸馏方法,使用仅限英语的CLIP作为视觉编码器,并用质量较低的数据训练多语言文本编码器。像SLIP和LiT这样的混合方法将语言监督与自监督学习相结合,旨在平衡语义理解和视觉表示。然而,尽管有这些不同的努力,没有一个能够完全解决在全球范围内扩展CLIP而不牺牲性能的核心困境。

Meta、麻省理工学院、普林斯顿大学和纽约大学的一项合作研究现已推出了Meta CLIP 2,这标志着一个重大的飞跃。这种新方法首次完全从零开始,使用原生的全球图像-文本对来训练CLIP模型,彻底绕过了私有数据集、机器翻译或知识蒸馏等外部资源。Meta CLIP 2旨在通过精心设计并共同扩展其元数据、数据策划流程、模型容量和训练方法,来消除英语和非英语数据之间的性能权衡。至关重要的是,它最大限度地兼容OpenAI CLIP的架构,确保了对现有CLIP模型及其变体的广泛适用性。

Meta CLIP 2全球可扩展性背后的创新基于三大支柱:开发涵盖300多种语言的可扩展元数据、旨在确保概念平衡分布的复杂按语言策划算法,以及先进的训练框架。为了克服数据可用性的挑战,研究人员利用了全球策划的数据。针对“多语言诅咒”,他们开发了一个全球性的CLIP训练框架,该框架在很大程度上沿用了OpenAI和Meta CLIP已建立的设置和模型架构,但增加了关键要素:一个多语言文本分词器、一种扩展“已见”训练对的策略,以及对实现最佳性能所需的最小可行模型容量的透彻分析。

为确保泛化能力,训练设置中整合了OpenAI CLIP的ViT-L/14和Meta CLIP的ViT-H/14模型,并针对多语言支持进行了修改。对模型表达能力的研究表明,即使是OpenAI的ViT-L/14模型,在面对全球数据时也因其容量有限而受到“诅咒”的困扰。相比之下,更大的ViT-H/14模型被证明是一个转折点,在英语和非英语任务中都取得了显著的性能提升。

当在ViT-H/14模型上使用全球数据和扩展的“已见”训练对进行训练时,Meta CLIP 2展现出卓越的性能,在英语和多语言任务中,其表现分别超越了仅英语模型1.0倍和非英语模型1.3倍。然而,在未应用数据扩展或使用ViT-L/14等较小模型的情况下,“诅咒”依然存在。从以英语为中心的元数据过渡到全球等效元数据被证明至关重要。例如,仅仅移除“alt-texts”(描述性图像标签)上的英语过滤器,就导致ImageNet准确率略微下降0.6%,这凸显了语言隔离的影响。相反,用合并的全球元数据替换英语元数据,虽然最初降低了英语性能,但显著提升了多语言能力。在零样本分类和少样本地理定位基准测试中的评估一致显示,当从130亿对英语数据扩展到290亿对全球数据时,结果得到了改善,但GeoDE基准测试中观察到的性能饱和除外。

实质上,Meta CLIP 2代表着一场范式转变。它是第一个完全从零开始,利用原生图文对在全球范围内训练的CLIP模型。它的成功表明,通过战略性地扩展元数据、策划和训练容量,长期存在的“多语言诅咒”可以被打破,从而为英语和非英语语言的性能带来互惠互利。例如,Meta CLIP 2的ViT-H/14变体在零样本ImageNet上超越了其仅英语对应模型(从80.5%提升到81.3%),并在XM3600、Babel-IN和CVQA等多语言基准测试中取得了出色成果,所有这些都集成在一个统一的模型中。通过开源其元数据、策划方法和训练代码,Meta CLIP 2赋能全球研究社区果断地超越以英语为中心的方法,释放全球多模态网络的全部潜力。