0%

动机

  • Locatello等人证明无归纳偏置的无监督解纠缠学习在理论上是不可能的,现有的归纳偏置和无监督方法不足以持续学习解纠缠表征;
  • 但是实际环境中,往往只能得到有限的监督,如通过对少量训练实例中的(部分)变化因素进行人工标注。

贡献

  • 观测到一些现有的解纠缠策略(需要 z 的观测)能够在极少量标签的情况下,调整无监督方法的超参数,而具有较好的效果,因此训练各种模型并引入监督去进行模型选择是一个可行的解决方法;
  • 发现添加一个简单的监督损失(即使只使用100个有标签样本)将标签信息加入到训练中去,在解纠缠的分数和下游任务上都比带有监督验证的无监督训练方法更好;
  • 发现带有监督验证的非监督训练方法和半监督训练方法对噪声标签有较好的鲁棒性,并且可以容忍粗糙和局部的注释。
阅读全文 »

动机

  • 对于人工智能来说,学会区分观测数据的不同属性(称为解纠缠)是一项关键任务;
  • 作者分析类别和内容表征中包含的信息,表明当前的方法允许信息在表征之间泄漏,从而导致不完美的解纠缠。

贡献

  • 提出了一种新的非对抗性方法LORD来实现对象的类和特定样本内容之间的解纠缠,通过共享潜在优化和非对称正则化改进以往方法的缺点;
  • 实验证明本文的方法比相同监督条件下的对抗性方法和对抗性方法中取得了最好的解纠缠性能,同时可以基于聚类方法去应用在无监督的域转换的任务中去。
阅读全文 »

动机

  • 交叉熵损失是有监督分类模型中应用最广泛的损失函数,但交叉熵损失对噪声标签不鲁棒,且存在poor margins的可能性,而导致泛化性不好,而现有的改进方法不能很好的用于imagenet等数据集。

贡献

  • 提出了一种新的对比损失函数,它允许对于每个anchor有更多的正样本,因此将对比学习应用在了有监督的学习;
  • 同时实验证明,与交叉熵相比,这种新的损失提供了更好的准确性和鲁棒性;本文新的损失对超参数的敏感性不如交叉熵,是因为在嵌入空间,将同一类的点聚类在一起,对于不同类别的样本则分开,更有效地利用了标签地信息;
  • 通过分析可以发现,本文的损失函数鼓励去学习hard positives and negatives,同时证明triplet损失是本文损失的一种特殊情况(当只有单个正负样本时)。
阅读全文 »

动机

  • 无监督学习在自然语言处理领域应用较广,如GPT、BERT等,而在计算机视觉领域应用较少,作者认为是两个领域处理的数据对应不同的信号空间,语言任务是离散的信号空间,词与词之间可以被认为是独立的词组,更方便去构成字典;而视觉任务的信号是连续、高维且无法被结构化的信号;
  • 对比损失作为一种无监督学习的方法,可以认为是建立动态字典的过程,字典中的key认为是从数据中进行采样然后被encoder表征,无监督学习是训练encoder做字典的搜寻:使被编码的query应该跟自己的key相匹配,而跟其它的应该不同;
  • 一般来说,希望建立一个足够大的且在训练过程中保持一致性的字典,因为更大的字典可以更好地对底层高维视觉空间进行采样,而字典中的key应该被相同的或者相似的encoder表征以便于keyquery的比较是一致的,但现有的方法使用对比损失不能兼顾这两者。

贡献

  • 对于带对比损失的无监督学习方法,提出了动量对比(MoCo)的无监督视觉表示学习方法;
  • 从对比学习作为字典查找的角度,构建了一个类似队列且具有滑动平均编码器的动态字典,以使得字典足够大且一致性较好;
  • MoCo学到的表示可以很好地应用到下游任务中,实验证明MoCo在很多视觉任务中能够大幅缩小无监督和有监督表征学习的差距。
阅读全文 »

动机

  • 场景图将图像解析为语义元素,例如对象及它们之间的相互关系等,有助于视觉理解和可解释推理;常识图则编码世界是如何构造的以及一般概念是如何交互的;
  • 本文希望能在这两种构造之间搭建一个桥梁,将场景图看作是一个常识性知识图在图像条件下的实例,将场景图的生成重新表述为场景图和常识图之间的桥梁推理,其中场景图中的每个实体或谓词实例都必须链接到常识图中对应的实体或谓词类。

贡献

  • 提出了一种新的基于图的神经网络,它在两个图之间以及每个图之间迭代地传播信息,同时在每次迭代中逐步完善它们之间的桥梁。
  • 提出的图桥接网络GB-Net,通过连续推断边和节点,允许同时开发和细化相互连接的场景图和常识图的丰富的、异构的结构。
阅读全文 »

动机

  • 目前的多域编辑方法经常会导致面部区域出现意想不到的变化,即生成器改变了与指定属性无关的区域;
  • 注意分支网络(ABN)将基于响应的视觉解释扩展到注意力机制,但是基于响应的视觉解释方法只能提取图像中已经存在的属性的注意力特征图。

贡献

  • 基于互补注意特征(CAFE)的概念(同时考虑目标属性和“互补属性”来识别需要转换的面部区域,“互补属性”定义为输入面部图像中缺失的那些属性),本文提出了一种新的面部属性编辑方法,旨在仅编辑与目标属性相关的面部部分;
  • 引入了一个互补的特征匹配损失设计来帮助训练生成器合成图像与给定的属性呈现准确和在适当的面部区域。
阅读全文 »

动机

  • 基于类别标签的弱监督语义分割通常使用CAM作为基础方法,CAM通常只覆盖物品最具识别性的部分,并且当图像经过仿射变换做数据增强时,生成的CAM并不一致,如下图所示。

  • 原因是强监督与弱监督的语义分割之间存在较大的监督差异,对于强监督语义分割,在数据增强阶段,像素级标签和输入图像经过相同的仿射变换,因而隐式的包含了这种等变性约束,而由类别标签生成的CAM时,类别标签没有变化,因而会影响CAM的训练过程,导致CAM无法很好的贴合目标边界;

贡献

  • 本文提出一种自监督的等变注意力机制(SEAM),将等变正则化和像素相关模块(PCM)结合,来弥补监督信号之间的差异;
  • Siamese网络结构的设计与等变交叉正则化(ECR)损失有效地耦合PCM和自我监督,产生的CAM有较少的过激活和欠激活区域;
  • 实验表明,在仅使用图像级标签的情况下就能达到最先进的性能。
阅读全文 »

图像抠图介绍

通常而言,对于一张图像,需要求解出它的前景,背景及alpha matte,基于alpha通道则可以将前景与任意背景进行组合得到新的图像,因此alpha matte是一个与原图同大小的一个单通道图像,每个像素对应于原RGB图像相同位置像素的alpha值。

I_{z}=\alpha_{z} F_{z}+\left(1-\alpha_{z}\right) B_{z}, \quad \alpha_{z} \in[0,1]

上式z为输入图像的像素位置, \alpha_z F_z B_z 分别为像素z处的alpha估计,前景和背景。

为了降低求解难度,通过使用人工标记的三元图来提供更多约束,即将一副图像分成绝对前景(FG,对应于下图的白色)、绝对背景(BG,对应于下图的黑色)以及过渡区域(对应于下图的灰色),这样只需要求解过渡区域的像素对应的alpha值。即本质上是逐像素的前景区域的回归,认为FG的结构来源于两个方面:自适应的语义和细化边界,对应于上式中的 \alpha_z = 1 和视图 \alpha_z∈(0,1)

该图来自 :http://wangchuan.github.io/archive/projects/robust-matting/

动机

  • 现有的基于深度学习的抠图算法主要依靠高级语义特征(提供FG的种类等)和外观特征(纹理和边界细节)来改进alpha mattes的整体结构。
  • 一方面,自然图像抠图是一个本质上的回归问题,不完全依赖于图像语义,这意味着深度网络提取的语义属性对图像结构的贡献是不相等的。另一方面,外观线索在保留复杂图像纹理的同时,也包含了FG之外的细节。然而,现有的抠图网络忽视了对这种层次特征的深层次挖掘和提炼。
  • 所以,本文认为从cnn中提取的高级语义对alpha感知的贡献是不平等的,应该调和高级语义信息和低级外观线索,需要在组合前进行适当的过滤,以细化前景细节。

贡献

  • 提出了一种端到端的分层注意力抠图网络(HAttMatting),该网络可以在不增加任何输入的情况下实现高质量的注意力抠图;
  • 设计了一个分层注意机制,它可以聚合外观线索和高级金字塔特征,以产生细粒度的边界和自适应的语义;
  • 采用了均方误差(MSE)、结构相似性(SSIM)和对抗损失等组成的混合损失来提高alpha感知,为文中的HAttMatting训练提供有效的指导。
阅读全文 »

动机

  • 现有的图像超分,一般使用确定的操作对高分辨率图像进行降采样得到配对的数据,但这样的方法使得得到的低分辨率图像跟真实世界的低分辨率图像差异很大;
  • 对于非配对的方法则存在不同程度的缺点。

贡献

  • 本文提出一种使用GAN网络进行非配对训练的超分方法,网络由一个非配对的噪声校正网络和一个伪配对SR网络组成。
  • 校正网络去除噪声,调整输入LR图像的核;然后,通过SR网络对校正后的clean LR图像进行上采样。在训练阶段,校正网络也从输入的HR图像中生成一个伪clean LR图像,然后由SR网络配对学习伪clean LR图像到输入HR图像的映射。由于本文的SR网络是独立于校正网络的,现有网络架构和像素级损失函数可以与提出的框架集成。
  • 在不同数据集上的实验表明,该方法优于现有的解决方法。
阅读全文 »