I-JEPA:AIはピクセルを超え、画像の「意味」をどう理解するか
コンピュータービジョンの分野において、画像を真に理解できるモデルの追求は、単にピクセルを認識するだけにとどまりません。より深いアプローチでは、モデルに内部の抽象的な表現、しばしば潜在空間や意味的特徴と呼ばれるものを把握することを教えることが含まれます。この基本的な概念は、画像ベースの結合埋め込み予測アーキテクチャ(Image-based Joint-Embedding Predictive Architecture、略称I-JEPA)の基盤となっており、これは自己教師あり学習における重要な進歩です。I-JEPAは、大量の手作業でラベル付けされたデータセットを必要とせずに、視覚モデルに視覚データのより深く、人間のような理解を植え付けることを目指しています。
I-JEPAの動機は、既存の自己教師あり学習パラダイムの固有の限界に由来します。現在の方法は大きく2つのカテゴリに分類されます。SimCLRやDINOのような不変性ベースのアプローチは、通常、同じ画像の様々な拡張バージョン(例:クロップ、色変更)を比較することで学習します。意味的特徴の学習には効果的ですが、これらの方法は特定のデータ拡張に依存するため、強いバイアスを導入し、すべてのタスクやデータタイプに汎化できない可能性があります。逆に、マスク付きオートエンコーダー(Masked Autoencoders、MAE)のような生成的手法は、画像の一部をマスクして、モデルに欠落したピクセルを再構築するように訓練することで機能します。事前知識への依存は少ないものの、ピクセルレベルの再構築に焦点を当てるため、意味的に豊かな表現が得られにくく、テクスチャ合成には優れていても、より広範な概念的理解を欠く可能性があります。
I-JEPAは、両者の長所を組み合わせることを目指し、手作業で作成されたデータ拡張を必要とせずに、高度に意味的な画像表現を獲得することを目指しています。その核心的な革新は、生のピクセルではなく、画像セグメントの抽象的な表現を予測することにあります。パッチの「意味」や「本質」に焦点を当てることで、モデルは高レベルの概念を学習するように促され、関連性のないピクセルレベルのノイズを効果的にフィルタリングし、より堅牢で有用な特徴を育成します。さらに、I-JEPAは印象的なスケーラビリティと計算効率を示しています。
I-JEPAは単にピクセルを予測するだけでなく、画像の意味を学習しており、AIの理解において新たな基準を打ち立てています。より洗練されたコンピュータービジョンの追求において、焦点は単なるピクセル分析から、画像のより深く内部的な表現の理解へとますますシフトしています。これらの抽象的、または「潜在空間」の表現は、視覚モデルがより意味のある意味的特徴を把握することを可能にします。この核心的なアイデアは、画像ベースの結合埋め込み予測アーキテクチャ、I-JEPAの中心であり、手作業によるラベリングという骨の折れるプロセスなしに、コンピューターに視覚データを理解させるように設計された新しいアプローチです。
I-JEPAは、既存の自己教師あり学習方法の主要な限界に対処します。現在の技術は、それぞれ独自の課題を持つ2つの主要なカテゴリに分類されることが多いです。SimCLRやDINOのような不変性ベースの方法は、同じ画像の異なる拡張ビュー(例:クロップ、色変更)を比較することで学習します。意味的特徴を識別する能力がある一方で、これらの方法は特定のデータ拡張への依存を通じて強いバイアスを導入し、すべてのタスクやデータタイプに汎化できない可能性があります。あるいは、マスク付きオートエンコーダー(MAE)のような生成的方法は、画像の一部を隠し、欠落したピクセルを再構築するようにモデルを訓練することで機能します。これらは事前知識をあまり必要としませんが、ピクセルレベルの再構築に重点を置くため、意味的に豊かな表現が得られにくく、モデルはテクスチャの埋め込みには優れていても、より広範なコンテキストや意味を見逃す可能性があります。
I-JEPAは、これらのアプローチの最良の側面を組み合わせることを目指しています。その目標は、手作業で作成されたデータ拡張に依存することなく、非常に意味のある画像表現を学習することです。I-JEPAは、生のピクセルではなく抽象表現を予測することで、モデルが高レベルの概念に集中し、不要なピクセルレベルのノイズを無視するように促します。この戦略は、より堅牢で有用な特徴の学習を促進し、このアーキテクチャは高いスケーラビリティと効率性を持つことが証明されています。
I-JEPAは、その独自の学習メカニズムによって際立っています。類似の埋め込みを生成するために画像の複数の拡張された「ビュー」を比較する不変性ベースの方法とは異なり、I-JEPAは単一の画像で動作します。それは、その同じ画像内の「コンテキストブロック」からの情報を使用して、特定の「ターゲットブロック」の表現を予測します。これにより、それは直接的な不変性タスクではなく、予測タスクとなります。この論文はI-JEPAを結合埋め込み予測アーキテクチャ(JEPA)として分類し、不変性ベースの方法で使用されるより一般的な結合埋め込みアーキテクチャ(JEA)と区別しています。JEAが互換性のある入力に対して類似の埋め込みを目指すのに対し、JEPAは空間的位置などの情報に条件付けられた、ある入力から別の入力の埋め込みを予測することに焦点を当てています。
入力信号自体(生のピクセルまたはトークン化された画像パッチのいずれか)を再構築する生成方法とは対照的に、I-JEPAは抽象的な表現空間内で情報を予測します。これは、ターゲット領域のピクセル単位の完璧な再構築を目指しているわけではないことを意味します。むしろ、これらのパッチの高レベルの特徴や意味的な内容を捉えることを目指しています。表現空間自体は、ピクセルや事前定義されたトークンのように固定されているのではなく、トレーニング中に学習されます。研究が強調するように、「I-JEPAメソッドは非生成的であり、予測は表現空間で行われる。」I-JEPAを特徴づける重要な設計要素は、その特定のマスキング戦略です。これは、意味的に意味のある十分に大きなターゲットブロックを慎重に選択し、情報豊富で空間的に分散されたコンテキストブロックを使用します。
I-JEPAのアーキテクチャは完全にVision Transformers(ViT)に基づいて構築されており、3つの主要なコンポーネントで構成されています。コンテキストエンコーダーは、モデルに提供される最初のヒントである「コンテキストブロック」の可視部分を処理する標準的なViTです。ターゲットエンコーダーもViTであり、モデルが予測するタスクである「ターゲットブロック」の真の表現を計算する役割を担っています。決定的に重要なのは、このターゲットエンコーダーの重みが標準的な勾配降下によって直接更新されるのではなく、コンテキストエンコーダーの重みの指数移動平均(EMA)であることです。このEMAメカニズムは、「表現の崩壊」を防ぐために不可欠です。表現の崩壊は、モデルが自明で情報量の少ない解を見つけてしまう一般的な問題です。最後に、予測器は軽量のViTであり、2つの入力を受け取ります。コンテキストエンコーダーによって生成された表現と、ターゲットブロックの位置を示す特定の位置マスクトークンです。これらの入力に基づいて、予測器はそのターゲットブロックの推定表現を出力します。この設定では、コンテキストエンコーダーは部分的な情報しか見えず、予測器は欠落している抽象表現を推論しようとします。これにターゲットエンコーダーの非対称EMA更新が組み合わされることが、I-JEPAの成功の鍵となります。
I-JEPAの学習方法は、これらの抽象表現の予測に焦点を当てています。入力画像から、単一の情報豊富な「コンテキストブロック」がサンプリングされます。同時に、いくつかの「ターゲットブロック」がランダムに選択されます。重要な違いは、これらのターゲットブロックが生の画像パッチではないことです。代わりに、それらの表現はターゲットエンコーダーの出力から派生しており、つまり、それらはすでに抽象的で、おそらくより意味的な表現空間に存在しています。予測タスクを挑戦的なものにするために、選択されたターゲットブロックと重なるコンテキストブロックの領域はすべて削除されます。その後、コンテキストエンコーダーはこのマスクされたコンテキストブロックを処理します。各ターゲットブロックについて、予測器はコンテキスト表現と、ターゲットの位置をエンコードする学習可能なマスクトークンを受け取り、そのターゲットブロックの予測されたパッチレベル表現を生成します。モデルは、予測器の出力とターゲットエンコーダーからの実際のターゲット表現との差(具体的には、L2距離または平均二乗誤差)を最小化することによって学習します。コンテキストエンコーダーと予測器は標準的な最適化によって更新され、ターゲットエンコーダーのパラメータはEMAを介してコンテキストエンコーダーのパラメータの平滑化されたバージョンとなります。このマルチブロックマスキング戦略は、通常、比較的大きな4つのターゲットブロックと、オーバーラップが削除された単一の大きく情報豊富なコンテキストブロックを含み、モデルが画像の異なる部分間の高レベルな関係を学習するように促します。
実証評価では、I-JEPAの様々なベンチマークにおける堅牢な性能が示されています。線形分類(単純な線形層が学習された特徴を評価する)、オブジェクトカウント、深度予測など、多様な下流タスクで強力な結果を実証しています。特に、I-JEPAはImageNet-1Kの線形プロービングにおいてマスク付きオートエンコーダー(MAE)を常に上回っており、はるかに少ないGPU時間でより良い結果を達成しています。表現を予測する計算効率が高いため、約5倍速く収束します。また、一般的にdata2vecやContext Autoencoders(CAE)よりも性能と計算効率に優れています。iBOTやDINOのようなビュー不変性メソッドに対しては、ImageNet-1Kの線形プロービングのような意味的タスクで競争力を維持しており、手作業による拡張に頼ることなくこれを達成している点が重要です。Clevrデータセットにおけるオブジェクトカウントや深度予測のような低レベルビジョンタスクでは、I-JEPAはこれらのビュー不変性メソッドをも上回っており、局所的な画像特徴を捕捉する優れた能力を示唆しています。アブレーション研究は、その設計選択の重要性をさらに強調しています。抽象的な表現空間での予測は性能にとって不可欠であり、提案されたマルチブロックマスキング戦略は、他のマスキングアプローチと比較して、意味的表現を学習する上で優れています。
I-JEPAは、自己教師あり学習における大きな一歩を示しており、ピクセルの詳細ではなく抽象的な本質を予測することで、意味のある視覚表現を学習する、スケーラブルで効率的かつ堅牢な自己教師あり学習フレームワークを提供し、より人間のようなAIモデルへと私たちを近づけます。