0%

动机

  • CV中常见的自监督方法有两种:invariance-based methodsgenerative methods
  • invariance-based methods使用同一图像的多个视图优化编码器使其产生相似的表征,该类方法通过手动数据增强,可以产生high semantic level表征,但引入的bias可能会下游任务较差,且不清楚如何将bias推广到不同abstraction层次的任务,如图像分类和实例分割不需要相同的不变性;
  • generative methods则通过重建输入中随机maskpatch来学习表征,相比invariance-based methods需要更少的先验知识,但产生的表征是low semantic level,在linear probing等任务中表现不佳,需要更复杂的适应机制(如end-to-end finetuning)才能充分利用该类方法;
  • 本文则探索如何在不使用数据增强等额外先验知识的情况下提高自监督学习的语义水平。

贡献

  • 提出了一种新的自监督学习框架I-JEPA(Imagebased Joint-Embedding Predictive Architecture)
  • 首先,I-JEPA的核心思想是通过预测表征空间中缺失的信息,即通过context信息预测同一图像中target的表征,相比generative methods在像素空间预测生成,能消除不必要的像素细节,使得模型学习更多的语义特征;
  • 其次,I-JEPA提出multi-block masking stategy,展示了使用信息丰富的(空间分布的)上下文块预测图像中多个目标块的重要性(规模足够大);
  • 最后,I-JEPA具有高度的可扩展性,训练较MAEiBOT更快,在可以在各种抽象级别的下游任务中获得较好的性能。
阅读全文 »

动机

  • DDPM可以产生高质量的生成样本,但没有文章显示DDPMlog-likelihood能力,引发一些问题,比如DDPM是否能够捕获分布的所有模式。

贡献

  • 通过参数化和混合目标函数,表明DDPM在保证高质量图像质量的同时可以提高log-likelihood,且可加速采样过程;
  • 通过precisionrecall指标评估,发现DDPM可以匹配GAN的样本质量,并获得更好的模式覆盖;
  • 发现模型容量和训练计算的增加,可以扩展模型的样本质量和log-likelihood能力。
阅读全文 »

动机

  • 在图像生成任务上,GAN拥有目前最先进的能力,但研究表明GAN相比likelihood-based models捕捉的多样性更少,且训练难度更大,容易模式崩塌;
  • 现在的扩散模型效果跟GAN有一定差距,作者假设之间的GAP至少来自两个方面:1)GAN的模型结构探索更充分;2)GAN在多样性和保真度之间平衡较好,能够产生高质量的图像但不能覆盖整个分布;
  • 本文目的则希望改进模型结构,并设计一个方案权衡多样性和保真度,提高扩散模型的能力。

贡献

  • 本文证明扩散模型可以实现目前最先进的图像生成质量:在无条件图像生成任务,通过一系列消融实验寻找到更好的网络结构;在有条件图像生成任务,利用分类器的梯度引导进一步提升样本质量。
阅读全文 »

动机

  • CAM表明全局平均池化后的CNN能够学习categorical heatmap,类似于物理热扩散方程,这提供了一种自监督方法,即用热方程而不是类标签来指导表征学习。

贡献

  • 提出一种新的自监督学习方法Quarter-Block prediction guided by Heat equation (QB-Heat),该方法基于热方程并扩展到高维特征空间,简化后的方法在水平和垂直方向分别建模空间不变性,支持跨图像块的预测;
  • QB-Heat将四分之一的图像unmasked,并线性外推其它区域,实现在CNN可简单进行masked image modeling任务,并获得良好的性能;
  • 为不同形状和纹理的视觉表征的不变性提供了一个假设:水平方向和垂直方向偏导之间的线性关系。
阅读全文 »

动机

  • 在无监督情况下如何学习有用的表征很关键,希望实现一个模型在其隐空间保存数据重要特征的同时优化最大似然;
  • 而采用离散编码更容易对先验建模,且连续的表征通常会被网络内在地离散化。

贡献

  • 引入矢量量化的思想,将VAE与离散隐空间相结合,提出VQVAE,它避免了posterior collapsevariance issues,且与连续编码模型表现相当;
  • 当离散隐编码与自回归prior配对使用,模型可在speech and video generation等应用生成高质量的一致性样本,以及无监督学习。
阅读全文 »

动机

  • 文图生成中text-only query的可控性有限,如简单地使用与位置相关的文本词通常会造成模糊的input query,且当text query很长、复杂或描述罕见场景,模型可能会忽略某些细节而只遵循视觉或语言先验;
  • layout-to-image generation在区域控制方面有一定作用,但很难理解自由形式的文本输入,也不能理解开放文本描述和空间位置的组合。

贡献

  • 提出一种预训练文图生成模型ReCo,在region-controlled input query中引入position tokens,用户可在图像区域自由指定regional descriptions
  • 基于Stable Diffusion实例化ReCo,可基于输入queryregional instructions生成高质量的图像;
  • 设计了一个evaluation benchmark来评估region-controlled的生成能力。
阅读全文 »

动机

  • 不同类型的语言模型使用不同的预测任务和训练目标,BERT提高了NLU任务的性能,但双向特性难以适应NLG任务。

贡献

  • 提出一个新的联合预训练语言模型UniLM,使得在NLUNLG任务上都可以进行fine-tuned
  • 该方法通过共享的Transformer和特定的self-attention mask预测条件上下文,通过三种无监督语言目标进行优化,在GLUE等数据集上结果优于BERT
阅读全文 »

动机

  • 图像-文本生成任务是双向的,但由于语言生成和图像生成的架构不同,通常将两个任务分开处理,设计特定于任务的框架;

  • 近年来,视觉语言预训练模型大幅提高图像到文本生成任务的性能,但大规模的文本到图像生成任务预训练模型仍处于开发阶段。

贡献

  • 提出一种生成预训练框架ERNIE ViLG,适用于双向图像-文本生成任务,并采用端到端的训练方式联合学习视觉序列生成器和图像重构器;
  • ERNIE ViLGtext-to-image synthesisimage captioning任务上有着优越的性能,表明双向生成模型可捕捉对齐视觉和语言模态的复杂语义。
阅读全文 »

动机

  • Knowledge graph通常是采用三元组表征实体之间的关系,由于构建成本和覆盖面影响,一个重要问题是如何基于观察到的事实进行推理预测缺少的事实;
  • 一种方法是基于规则的符号逻辑方法,如Markov Logic Network结合first-order logic和概率图模型,利用域知识来处理不确定性,但由于复杂的图结构及规则的限制,导致推理通常很困难;
  • 另一种方法是知识图嵌入方法,knowledge graph embedding能有效地学习有用的entity embeddingrelation embedding进行推理,但不能利用逻辑规则。

贡献

  • 提出概率逻辑神经网络pLogicNet,该方法同时结合MLN和知识图嵌入方法的优点,既能够利用一阶逻辑规则并处理其不确定性,也能够以有效的方式训练和推断缺失的三元组;
  • 该方法利用一阶马尔可夫逻辑网络定义了所有可能三元组的联合分布,其将每个逻辑规则与权值关联起来,并用变分EM算法进行有效优化。在E步中,使用知识图嵌入模型推断缺失的三元组,在M步中,根据观察到的三元组和预测的三元组更新逻辑规则的权值。
阅读全文 »

动机

  • 随着算力和模型的增长,需要大量的数据,但通常无法获得大量的有标签数据,而NLP则通过自监督预训练获得成功;
  • masked autoencoder是一种更一般的denoising autoencoder,该方法优先在CV中提出,但CV中的相关发展却落后于NLP,作者试图发问:是什么导致了masked autoencodervisionlanguage的不同;

贡献

  • 尝试从几个方面回答masked autoencodervisionlanguage的不同,并提出了一种新的视觉表征学习方法MAE,该方法在输入图像中mask随机patches,并在像素空间中重建被maskpatches
  • MAE设计了非对称的编码器-解码器架构,并发现高比例的mask具有更好的效果,可以加快训练速度并提高准确性;
  • 通过MAE预训练,可以在ImageNet-1K数据上训练ViT-Large/-Huge,比先前所有使用相同数据的方法更好,并且可以在目标检测、实例分隔、语义分割上进行应用。
阅读全文 »