I-JEPA:AI如何超越像素,掌握图像“真意”?
在计算机视觉领域,追求能够真正理解图像的模型,其目标远不止简单地识别像素。一种更深刻的方法是教会模型掌握内部的抽象表示——通常被称为潜在空间或语义特征。这一基本概念是基于图像的联合嵌入预测架构(Image-based Joint-Embedding Predictive Architecture,简称I-JEPA)的基础,它是自监督学习领域的一项重大进展,旨在使视觉模型对视觉数据产生更深层次、更像人类的理解,而无需大量手动标记的数据集。
I-JEPA的动机源于现有自监督学习范式的固有局限性。当前方法大致分为两类。基于不变性的方法,如SimCLR或DINO,通常通过比较同一图像的各种增强版本(例如裁剪、颜色偏移)来学习。尽管在学习语义特征方面有效,但这些方法由于依赖特定的数据增强而引入了强大的偏差,这可能无法泛化到所有任务或数据类型。相反,生成方法,如掩码自编码器(Masked Autoencoders,MAE),通过遮蔽图像的一部分并训练模型重建缺失的像素来发挥作用。尽管它们对先验知识的依赖较少,但其对像素级重建的关注往往产生语义丰富性较低的表示,可能擅长纹理合成但缺乏更广泛的概念理解。
I-JEPA致力于结合两者的优势,旨在获得高度语义化的图像表示,而无需手动设计的数据增强。其核心创新在于预测图像片段的抽象表示,而非原始像素。通过关注图像块的“含义”或“本质”,模型被鼓励学习更高层次的概念,有效地过滤掉不相关的像素级噪声,并培养更鲁棒、更有用的特征。此外,I-JEPA已展示出令人印象深刻的可扩展性和计算效率。
I-JEPA不仅预测像素,它正在学习图像的意义,为AI理解设定了新标杆。在追求更复杂的计算机视觉过程中,重点正日益从单纯的像素分析转向理解图像更深层次的内部表示。这些抽象的或“潜在空间”的表示使视觉模型能够掌握更有意义的语义特征。这一核心思想是基于图像的联合嵌入预测架构(I-JEPA)的核心,这是一种新颖的方法,旨在教会计算机理解视觉数据,而无需繁琐的手动标注过程。
I-JEPA解决了现有自监督学习方法的关键局限性。当前技术通常分为两大类,每类都有其自身的挑战。基于不变性的方法,如SimCLR或DINO,通过比较同一图像的不同增强视图(例如裁剪、颜色变化)来学习。尽管能够识别语义特征,但这些方法由于依赖特定的数据增强而引入了强大的偏差,这可能无法泛化到所有任务或数据类型。或者,生成方法,如掩码自编码器(MAE),通过遮蔽图像的一部分并训练模型重建缺失的像素来操作。尽管它们所需的先验知识较少,但其对像素级重建的强调可能导致语义丰富性较低的表示,模型可能擅长填充纹理但错失更广泛的上下文或含义。
I-JEPA力求结合这些方法的优点。其目标是学习高度有意义的图像表示,而无需依赖手动设计的数据增强。通过预测抽象表示而非原始像素,I-JEPA鼓励模型专注于更高层次的概念,并忽略不必要的像素级噪声。这种策略有助于学习更鲁棒和有用的特征,并且该架构已被证明具有高度的可扩展性和效率。
I-JEPA通过其独特的学习机制脱颖而出。与基于不变性的方法(通过比较图像的多个增强“视图”来生成相似嵌入)不同,I-JEPA在单张图像上操作。它利用来自同一图像内“上下文块”的信息来预测特定“目标块”的表示。这使其成为一项预测任务,而非直接的不变性任务。该论文将I-JEPA归类为联合嵌入预测架构(Joint-Embedding Predictive Architecture,JEPA),以区别于不变性方法使用的更通用的联合嵌入架构(Joint-Embedding Architectures,JEA)。虽然JEA旨在为兼容输入生成相似嵌入,但JEPA侧重于根据空间位置等信息,从一个输入预测另一个输入的嵌入。
与重建输入信号本身(无论是原始像素还是标记化的图像块)的生成方法不同,I-JEPA在抽象表示空间内预测信息。这意味着它不追求目标区域的像素级完美重建。相反,它旨在捕获这些图像块的更高层次特征或语义内容。表示空间本身是在训练期间学习的,而不是像像素或预定义标记那样固定。正如研究强调的,“I-JEPA方法是非生成性的,并且预测是在表示空间中进行的。”I-JEPA的一个关键设计元素是其特定的掩码策略,该策略仔细选择足够大以具有语义意义的目标块,并使用信息丰富、空间分布的上下文块。
I-JEPA的架构完全基于视觉Transformer(ViT),并包含三个主要组件。上下文编码器是一个标准的ViT,用于处理“上下文块”(提供给模型的初始线索)的可见部分。目标编码器,也是一个ViT,负责计算“目标块”(模型需要预测的图像部分)的真实表示。至关重要的是,该目标编码器的权重并非通过标准梯度下降直接更新,而是上下文编码器权重的指数移动平均(EMA)。这种EMA机制对于防止“表示崩溃”至关重要,表示崩溃是模型可能找到琐碎、无信息解决方案的常见问题。最后,预测器是一个轻量级的ViT,它接收两个输入:上下文编码器生成的表示和指示目标块位置的特定位置掩码标记。基于这些输入,预测器输出其对该目标块的估计表示。这种设置,即上下文编码器只看到部分信息,预测器尝试推断缺失的抽象表示,结合目标编码器的非对称EMA更新,是I-JEPA成功的关键。
I-JEPA的学习方法围绕预测这些抽象表示展开。从输入图像中,采样一个单一的、信息丰富的“上下文块”。同时,随机选择几个“目标块”。一个关键的区别是,这些目标块不是原始图像块;相反,它们的表示源自目标编码器的输出,这意味着它们已经处于抽象的、可能更语义化的表示空间中。为了使预测任务更具挑战性,上下文块中与选定目标块重叠的任何区域都将被移除。然后,上下文编码器处理这个被掩码的上下文块。对于每个目标块,预测器接收上下文表示以及包含位置信息的可学习掩码标记,本质上是告诉预测器在哪里寻找目标。预测器随后输出其对该目标块的预测补丁级表示。学习信号来自比较预测器的输出与目标编码器提供的实际目标表示。损失被计算为所有目标块的预测和实际补丁级表示之间的L2距离(均方误差)的平均值。上下文编码器和预测器的参数通过标准优化进行更新,而目标编码器的参数通过EMA是上下文编码器参数的平滑版本。这种多块掩码策略,通常涉及四个相对较大的目标块和一个较大的、信息丰富的上下文块,并移除重叠部分,鼓励模型学习图像不同部分之间的高级关系。
实证评估展示了I-JEPA在各种基准测试中的稳健性能。它在各种下游任务中表现出色,包括线性分类(其中一个简单的线性层评估学习到的特征)、对象计数和深度预测。值得注意的是,I-JEPA在ImageNet-1K线性探测中始终优于掩码自编码器(MAE),以显著更少的GPU小时获得更好的结果——由于预测表示而非像素的计算效率,其收敛速度大约快五倍。它通常在性能和效率方面也超过data2vec,并且以更少的计算量优于上下文自编码器(CAE)。与iBOT和DINO等视图不变性方法相比,I-JEPA在ImageNet-1K线性探测等语义任务上仍具竞争力,关键在于它不依赖手动设计的增强。对于Clevr数据集上的对象计数和深度预测等低级视觉任务,I-JEPA甚至优于这些视图不变性方法,这表明其捕获局部图像特征的能力更强。消融研究进一步强调了其设计选择的重要性:在抽象表示空间中进行预测对性能至关重要,并且与其它掩码方法相比,所提出的多块掩码策略更适合学习语义表示。
I-JEPA标志着自监督学习迈向更像人类AI模型的重要一步,它提供了一个可扩展、高效且鲁棒的自监督学习框架,通过预测抽象本质而非像素细节来学习有意义的视觉表示,使我们更接近像人类一样的AI。