动机
CV
中常见的自监督方法有两种:invariance-based methods
和generative methods
;invariance-based methods
使用同一图像的多个视图优化编码器使其产生相似的表征,该类方法通过手动数据增强,可以产生high semantic level
表征,但引入的bias
可能会下游任务较差,且不清楚如何将bias
推广到不同abstraction
层次的任务,如图像分类和实例分割不需要相同的不变性;generative methods
则通过重建输入中随机mask
的patch
来学习表征,相比invariance-based methods
需要更少的先验知识,但产生的表征是low semantic level
,在linear probing
等任务中表现不佳,需要更复杂的适应机制(如end-to-end finetuning
)才能充分利用该类方法;- 本文则探索如何在不使用数据增强等额外先验知识的情况下提高自监督学习的语义水平。
贡献
- 提出了一种新的自监督学习框架
I-JEPA(Imagebased Joint-Embedding Predictive Architecture)
; - 首先,
I-JEPA
的核心思想是通过预测表征空间中缺失的信息,即通过context
信息预测同一图像中target
的表征,相比generative methods
在像素空间预测生成,能消除不必要的像素细节,使得模型学习更多的语义特征; - 其次,
I-JEPA
提出multi-block masking stategy
,展示了使用信息丰富的(空间分布的)上下文块预测图像中多个目标块的重要性(规模足够大); - 最后,
I-JEPA
具有高度的可扩展性,训练较MAE
和iBOT
更快,在可以在各种抽象级别的下游任务中获得较好的性能。