Meta CLIP 2：世界初のゼロから構築された多言語CLIPモデル

対照的言語-画像事前学習（CLIP）は、現代のコンピュータビジョンおよびマルチモーダルAIモデルの基盤技術として台頭し、ゼロショット画像分類のような機能を強化し、マルチモーダル大規模言語モデル（MLLM）内の重要な視覚コンポーネントとして機能しています。しかし、CLIPの広範な採用は重大な限界に直面してきました。Meta CLIPを含むほとんどのバリアントは、歴史的に英語のみのデータセットに依存して訓練されてきたのです。この見落としは、グローバルなウェブ上で利用可能な膨大な量の非英語コンテンツを無視しており、真に普遍的なAIアプリケーションにとってボトルネックを生み出しています。

CLIPを英語以外に拡張する課題は二重です。第一に、このようなモデルに必要とされる膨大な規模で、高品質な非英語データをキュレーションする効率的な方法が著しく不足しています。第二に、多言語データを統合すると、しばしば「多言語の呪い」と呼ばれる現象が発生します。これは、非英語コンテンツを追加すると、逆説的に英語のタスクでのパフォーマンスが低下するというものです。これらの絡み合った問題は、英語と非英語の両方の言語環境で優れた性能を発揮できる統一されたAIモデルの開発を深刻に妨げてきました。

これらの限界に対処するための以前の試みも、それぞれ課題に直面していました。OpenAI CLIPやオリジナルのMeta CLIPのようなモデルは、本質的に英語中心のデータキュレーションに縛られていました。より大きな「教師」モデルから知識を転移する蒸留ベースのアプローチは、しばしばこれらの外部ソースからのバイアスを導入しました。SigLIPとSigLIP 2はGoogle画像検索からのデータ使用を探求しましたが、それらがプロプライエタリなソースに依存しているため、スケーラビリティが制限されます。M-CLIPやmCLIPなどの他の多言語CLIPモデルは蒸留を採用し、英語のみのCLIPを視覚エンコーダとして使用し、低品質のデータで多言語テキストエンコーダを訓練しました。SLIPやLiTのようなハイブリッド手法は、言語監視と自己教師あり学習を組み合わせ、意味理解と視覚表現のバランスを目指しました。しかし、これらの様々な努力にもかかわらず、パフォーマンスのトレードオフなしにCLIPをグローバルにスケールアップするという核心的なジレンマを完全に解決したものはありませんでした。

Meta、MIT、プリンストン大学、ニューヨーク大学による共同研究により、Meta CLIP 2が発表され、大きな飛躍を遂げました。この新しい手法は、プライベートデータセット、機械翻訳、蒸留などの外部リソースを完全に回避し、ネイティブな世界中の画像-テキストペアを使用してCLIPモデルをゼロから訓練する初の試みです。Meta CLIP 2は、メタデータ、データキュレーションプロセス、モデル容量、および訓練手法を綿密に設計し、共同でスケーリングすることにより、英語と非英語データの間のパフォーマンスのトレードオフを排除することを目指しています。重要なことに、OpenAI CLIPのアーキテクチャとの互換性を最大限に高め、既存のCLIPモデルとそのバリアントへの広範な適用性を確保しています。

Meta CLIP 2のグローバルなスケーラビリティを支えるイノベーションは、3つの主要な柱に基づいています。300以上の言語を網羅するスケーラブルなメタデータの開発、概念のバランスの取れた分布を確保するために設計された洗練された言語ごとのキュレーションアルゴリズム、そして高度な訓練フレームワークです。データ利用可能性の課題を克服するため、研究者たちはグローバルにキュレーションされたデータを活用しました。「多言語の呪い」に対しては、OpenAIとMeta CLIPの確立された設定とモデルアーキテクチャを大いに踏襲しつつ、多言語テキストトークナイザー、訓練済みペアをスケーリングする戦略、そして最適なパフォーマンスに必要な最小限のモデル容量の徹底的な分析という重要な追加機能を備えた、世界規模のCLIP訓練フレームワークを開発しました。

汎化性を確保するため、訓練設定には多言語サポート用に修正されたOpenAI CLIPのViT-L/14モデルとMeta CLIPのViT-H/14モデルが組み込まれました。モデルの表現力に関する研究から、OpenAIのViT-L/14でさえ、グローバルデータに直面するとその限られた容量のために「呪い」に苦しむことが明らかになりました。対照的に、より大きなViT-H/14モデルは転換点となり、英語および非英語のタスクの両方で顕著な性能向上を達成しました。

世界中のデータとスケールされた既知のペアを用いてViT-H/14モデルで訓練されたMeta CLIP 2は、優れたパフォーマンスを示し、英語のみのモデルを1.0倍、非英語モデルを1.3倍上回りました。これは英語および多言語タスクの両方で達成されました。しかし、データスケーリングが適用されていない設定や、ViT-L/14のような小さなモデルが使用された場合には、「呪い」が持続しました。英語中心のメタデータから世界中の同等なものへの移行は不可欠であることが証明されました。例えば、「alt-texts」（記述的な画像タグ）から英語フィルターを単に削除しただけで、ImageNetの精度がわずかに0.6%低下し、言語分離の影響が浮き彫りになりました。逆に、英語のメタデータを統合された世界中のメタデータに置き換えると、当初は英語のパフォーマンスが低下しましたが、多言語能力は大幅に向上しました。ゼロショット分類およびフューショット地理位置特定ベンチマークでの評価では、130億の英語ペアから290億の世界中のペアにスケーリングすると、GeoDEベンチマークで観察されたパフォーマンスの飽和を除いて、一貫して改善された結果が示されました。

本質的に、Meta CLIP 2はパラダイムシフトを意味します。これは、ネイティブな画像-テキストペアを使用して、真にグローバルな規模でゼロから訓練された初のCLIPモデルです。その成功は、メタデータ、キュレーション、訓練容量を戦略的にスケーリングすることで、長年の「多言語の呪い」を打ち破り、英語および非英語の言語パフォーマンスの両方に相互利益をもたらすことを示しています。例えば、Meta CLIP 2のViT-H/14バリアントは、ゼロショットImageNetで英語のみの対応モデルを上回り（80.5%から81.3%に向上）、XM3600、Babel-IN、CVQAなどの多言語ベンチマークで卓越した結果を達成しました。これらすべてが単一の統合モデル内で実現されています。Meta CLIP 2は、そのメタデータ、キュレーション方法、および訓練コードをオープンソース化することにより、グローバルな研究コミュニティが英語中心のアプローチを決定的に超越し、世界規模のマルチモーダルウェブの可能性を最大限に引き出すことを可能にします。

Meta CLIP 2：世界初のゼロから構築された多言語CLIPモデル

関連記事

Google、Genie 3を発表：ロボット向けAI世界モデルの画期的な進化

Google DeepMindのGenie 3：インタラクティブAI世界生成の画期的な進歩

アリババのQwen-Image：画像内の高精度テキスト生成を実現