0%

2020-12-17 update MoCo, SimCLR, MoCo v2, SimCLR v2, SwAV, BYOL, SimSiam

自监督学习

参考博客:Contrastive Self-Supervised Learning

现在的自监督方法主要分为如下两类:生成方法和对比方法。

其中生成方法专注于像素空间的特征,使用像素级的损失可能导致此类方法过于关注像素级的细节,而不是抽象的语义信息,且基于像素的方法通常假设每个像素之间相互独立,难以有效建立空间关联及对象的复杂结构;而对比方法通过对比正样本和负样本来学习潜在空间地表征,利用该表征去完成下游任务。

具体来说,对于任意数据点 x ,对比方法的目的是学习一个编码器 f 使得:

\text{sim}(f(x),f(x^{+}))>>\text{sim}(f(x),f(x^{-}))

其中, x^{+} x 的正样本, x^{-} x 的负样本, \text{sim} 函数评估两个特征之间的相似度。

所以对于一个锚点数据 x ,对比学习通过构建一个softmax分类器正确地对正样本和负样本进行分类,同时 \text{sim} 函数鼓励正对之间具有较大的相似性,而负对之间有较小的相似性,采用交叉熵损失,故对于一对正对 (i,j) ,其对比学习的损失函数InfoNCE的一般形式为:

\ell_{i, j}=-\log \frac{\exp \left(\operatorname{sim}\left(f(x_i),f(x_j)\right) / \tau\right)}{\sum_{k\ne i}^{N} \exp \left(\operatorname{sim}\left(f(x_{i}), f(x_{k})\right) / \tau\right)}

其中, \tau 是温度系数超参数,上式表明包含一个正对和 N-1 个负对,最小化InfoNCE也可以解释为最大化 f(x) f(x^{+}) 之间的互信息下界,即代表知道 f(x^{+}) 之后, f(x) 的信息量减少的程度。

阅读全文 »

SimCLR v1链接:论文阅读-contrastive-learning-A Simple Framework for Contrastive Learning of Visual Representations

动机

  • 视觉表示的自监督学习进展较快,想要探讨半监督训练(少量有标签数据,大量无标签数据)的方法,并探讨一系列模型结构选择是否有利于有监督微调和半监督学习。

贡献

  • 实验表明,半监督学习(通过task-agnostic使用无标签数据),标签越少,越可能受益于一个更大的模型,更大的自监督模型具有更高的标签有效性,即使它们更可能潜在过拟合,但当只对少量标签示例进行微调时,它们的表现会显著更好。
  • 尽管大模型对于学习一般表征很重要,但当涉及特定目标任务时,额外的容量可能不是必要的,因此针对特定任务的无标签数据的使用,可以进一步提高模型的预测性能,并迁移到更小的网络中。
  • 进一步证明了非线性变换(即投影头)的重要性,更深的投影头不仅可以提高线性评估的表征质量,还能提高从投影头中间层进行微调时的半监督性能。
阅读全文 »

Moco v1链接:论文阅读-contrast-learning-Momentum Contrast for Unsupervised Visual Representation Learning

贡献

  • MoCo采用了SimCLR的几个设计改进:1)使用MLP投影头替代fc头;2)使用更多的数据增强方法,在较小的batchsize情况下,获得了更好的基准方法。
阅读全文 »

动机

  • 基于潜在空间对比学习的判别方法显示出了很大的前景,但是现有的方法需要专门的架构或memory bank

贡献

  • 提出了一个简单的视觉表示对比学习框架SimCLR,其简化了现有的对比自监督学习算法而不需要专门的架构或memory bank
  • 探讨了对比学习主要组成部分的作用,表明1)数据增强的组合方式对于无监督对比学习有重要的影响;2)在表征和对比损失之间引入一个可学习的非线性变换(MLP),可以大幅提升学习的表征质量;3)具有对比交叉熵损失的表征学习得益于归一化嵌入和适当调整温度系数;4)收益于更大的batchsize,更长的训练,以及更深更广的网络。
阅读全文 »

动机

  • 现有的对比学习方法是通过减少正对特征之间的距离,增加负对之间的距离来训练的,这种方法依赖大的batchsizememeory bank或自定义的数据挖掘策略来处理负对;
  • 现有的对比学习方法性能也严重依赖于图像的增强方法。

贡献

  • 提出了一种新的自监督学习方法BYOL,其不使用负对样本;
  • 该方法性能最优,且BYOLbatchsize和图像增强集合的变换相比其它方法更鲁棒。
阅读全文 »

动机

  • 现有的对比学习方法依靠两两特征之间的显式比较,计算开销较大;
  • 有证据表明在训练过程中比较更多的视图可以改进得到的模型,但大多数的对比方法对每幅图像只进行一对变换;

贡献

  • 提出了一种新的在线聚类损失,即通过将图像特征映射到一组可训练的原型向量来避免对每一对图像进行比较,它对batchsize的敏感度不高,且无需巨大的memory bankmomentum encoder
  • 提出了一种新的图像增强策略multi-crop,简单地随机抽样不同分辨率的视图来代替两个全分辨率视图,带来性能上的提升且无额外的计算和内存开销。
阅读全文 »

动机

  • 现有的领域自适应的目标重识别方法通常采用基于聚类的伪标签方法,该方法由于域间的差异和聚类性能不佳,没有充分利用所有有价值的信息;
  • 一是在目标域微调的过程中,要么忽略了源域数据(仅用于预训练),要么由于方法设计的局限性,会对性能造成损害;
  • 二是在聚类过程中可能产生离群值,现有的方法通常将离群值丢弃而不用于训练,但这些离群值可能是目标域中困难但有价值的样本,而在训练早期通常有大量离群值,若简单地丢弃会损害最终性能。

贡献

  • 提出了一个统一的对比学习框架,将源域和目标域的所有可用信息纳入到联合特征学习中,并利用混合记忆模型Hybrid Memory来提供三种监督:class-levelcluster-levelinstance-level(分别对应源域、目标域聚类、目标域离群值);
  • 设计了一种新的带有聚类可靠性准则的自步对比学习策略,以防止伪标签噪声导致的训练误差被放大,它逐渐生成更可靠的目标域聚类,用于在混合记忆模型中学习更好的特征,进而提高聚类能力。
阅读全文 »

动机

  • 孪生网络是无监督/自监督表征学习模型中常见的结构,最近方法的输入为一个图像的两个增强图像,在不同的条件下最大化两个增强图像之间的相似性以避免崩溃解;
  • 孪生网络的一个不希望的解决方案是所有输出崩溃为一个常数,SimCLR通过对比学习的思想,拉近正对排斥负对,负对排除了解空间中的常量输出;SwAVonline clustering整合到孪生网络中;BYOL则在使用动量编码器的条件下只依赖正对。

贡献

  • 通过实验结果表明,即使不使用1)negative sample pairs; 2)large batches; 3) momentum encoders,孪生网络也可以学到有意义的表征,即直接最大化一个图像的两个视图的相似性,既不使用负对也不使用动量编码器;
  • 通过实验证明,对于损失和结构而言,存在崩溃解问题,但是stop-gradient操作在防止崩溃解中发挥了关键的作用;
  • 证明了由于孪生网络具有的建模不变性的特征,是目前的表达学习方法成功的关键原因所在,这也是表达学习的核心所在。
阅读全文 »

动机

  • 视觉关系检测(VRD)是通过提供一个主语-谓语-宾语的结构三元组来描述两个对象之间的关系,现有的基于图的方法主要通过对象级图来表示关系,忽略了对于三元组依赖关系的建模;

  • 先前使用图网络的方法是基于对象的空间相关性来构建的,仅基于空间相关性构造图会带来一些不合适的边,如冗余边或缺失边,而先验知识有助于图的构建过程,并直接参与关系推理。

贡献

  • 提出了一个层次图注意力网络(HGAT)去探索object-leveltriplet-level的三元关系,通过显式地建模三元组之间的依赖关系,可以在关系推理中加入更多的上下文信息;

  • 在图中引入先验知识和注意力机制,以减轻初始化图时不准确带来的不利影响,在注意力机制下,节点可以根据视觉或语义特征的相关性,通过给这些节点分配可学习的权重,来关注邻节点的空间和语义特征。

阅读全文 »

动机

  • 图像和句子匹配的关键是准确地度量图像和句子之间的视觉-语义相似度;
  • 然而,现有的方法大多仅利用各模态内部的模内关系或图像的区域与句子中的单词词之间的模间关系来进行跨模态匹配任务。而各模态内部的模内关系以及图像的区域与句子中的单词之间的模间关系可以相互补充和增强,实现图像与句子的匹配。

贡献

  • 在统一深度模型中联合建模图像区域和句子单词的模内关系和模间关系,提出了一种用于图像和句子匹配的多模态交叉注意力(MMCA)网络;
  • 提出了一个新颖的交叉注意力模块,它不仅能够利用每个模态的模内关系,而且能够利用模间的关系去互补和增强图像与句子的匹配关系。
阅读全文 »