0%

论文阅读-semantic segmentation-Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

动机

  • 基于类别标签的弱监督语义分割通常使用CAM作为基础方法,CAM通常只覆盖物品最具识别性的部分,并且当图像经过仿射变换做数据增强时,生成的CAM并不一致,如下图所示。

  • 原因是强监督与弱监督的语义分割之间存在较大的监督差异,对于强监督语义分割,在数据增强阶段,像素级标签和输入图像经过相同的仿射变换,因而隐式的包含了这种等变性约束,而由类别标签生成的CAM时,类别标签没有变化,因而会影响CAM的训练过程,导致CAM无法很好的贴合目标边界;

贡献

  • 本文提出一种自监督的等变注意力机制(SEAM),将等变正则化和像素相关模块(PCM)结合,来弥补监督信号之间的差异;
  • Siamese网络结构的设计与等变交叉正则化(ECR)损失有效地耦合PCM和自我监督,产生的CAM有较少的过激活和欠激活区域;
  • 实验表明,在仅使用图像级标签的情况下就能达到最先进的性能。

本文方法

Equivariant Regularization

在全监督语义分割的数据增强期,对像素级标签采用与输入图像相同的仿射变换。它为网络引入了隐式等变约束。但是,考虑到WSSS只能访问图像级分类标签,这里没有隐含的约束。因此,本文提出以下等变正则化方法:

\mathcal{R}_{E R}=\|F(A(I))-A(F(I))\|_{1}

F表示这个网络,而A表示空间仿射变换,为了将正则化整合到原始分割网络中,本文将网络扩展为一个权值共享的孪生网络,其中一个分支将该变换应用于网络输出,另一个分支在网络前馈前,对图像进行相同的变换,正则化两个分支的输出激活图,以保证CAM的一致性。

Pixel Correlation Module

同时文中引入第二种约束进行自监督,通过PCM利用像素间的相似度去重建原始的类激活图。通过整合每个像素的底层特征来进一步利用上下文信息来细化原始CAM,本文使用归一化特征空间的内积来计算当前像素i和其他像素j之间的相似关系。

\mathrm{y}_{i}=\frac{1}{\mathcal{C}\left(\mathrm{x}_{i}\right)} \sum_{\forall j} \operatorname{ReLU}\left(\frac{\theta\left(\mathrm{x}_{i}\right)^{\mathrm{T}} \theta\left(\mathrm{x}_{j}\right)}{\left\|\theta\left(\mathrm{x}_{i}\right)\right\| \cdot\left\|\theta\left(\mathrm{x}_{j}\right)\right\|}\right) \hat{\mathrm{y}}_{j}

其中 \hat{y} 表示原始CAM,y表示修改后的CAM,中间部分利用余弦距离去评估像素间的特征相似度,最后输出的CAM是具有归一化相似性的原CAM的加权和。相比non-local网络,PCM去掉了残差连接等,目的在于使得那些仿射变换后的图像在弱监督训练时,仍然能够保证与原始图像拥有相同的信息。

损失函数

  • 分类损失:对于原始图像的CAM和仿射变换后的图像的CAM经过一个全局平均池化层生成向量z,在网络训练中采用多标签soft margin损失,分类损失是为C - 1个前景对象类别

    \begin{aligned} \ell_{c l s}(\mathrm{z}, l)=-\frac{1}{C-1} \sum_{c=1}^{C-1}\left[l_{c} \log \left(\frac{1}{1+e^{-\mathrm{z}_{c}}}\right)\right.& \\ \left.+\left(1-l_{c}\right) \log \left(\frac{e^{-\mathrm{z}_{c}}}{1+e^{-\mathrm{z}_{c}}}\right)\right] \end{aligned} \\ \mathcal{L}_{c l s}=\frac{1}{2}\left(\ell_{c l s}\left(\mathrm{z}^{o}, l\right)+\ell_{c l s}\left(\mathrm{z}^{t}, l\right)\right)
  • The equivariant regularization(ER) loss:

    \mathcal{L}_{E R}=\left\|A\left(\hat{\mathrm{y}}^{o}\right)-\hat{\mathrm{y}}^{t}\right\|_{1}

    这里A(·)是一个仿射变换,它已经被应用到siamese网络的变换分支的输入图像上。

  • The equivariant cross regularization (ECR) loss:此外,为了进一步提高网络的等变学习能力,将浅层原始CAMs和特征输入PCM进行细化。直观的想法是在修正的CAM y^o y^t 之间引入等变正则化,但作者发现PCM的输出映射很快陷入局部最小值,图像中的所有像素都被预测为同一类,所以使用了一种等变交叉正则化损失。

    \mathcal{L}_{E C R}=\left\|A\left(\mathrm{y}^{o}\right)-\hat{\mathrm{y}}^{t}\right\|_{1}+\left\|A\left(\hat{\mathrm{y}}^{o}\right)-\mathrm{y}^{t}\right\|_{1}

部分实验结果

消融实验以及基于语义分割度量的各种弱监督定位方法的评价

可以看出本文提出的方法在图像覆盖上有一个更好的效果

做数据增强时不同方法的网络保持等变一致性的能力

在PASCAL VOC 2012数据集上跟其它弱监督学习方法的比较

参考文献

自监督等变注意力机制