0%

论文阅读-disentanglement-Disentangling GAN with One-Hot Sampling and Orthogonal Regularization

动机

  • 虽然解纠缠对下游任务的学习表示受到了质疑,但解纠缠对于人类可控数据生成、模型可解释性等等仍具有重要的意义;
  • 现有的VAE方法需要平衡解纠缠能力和生成能力,且学习到的潜在表示的边际分布使得优化过程隐式且复杂;
  • GAN的生成能力更强,但目前对于GAN在无监督解纠缠任务中关注较少。

贡献

  • 提出了一种基于GAN的基于one-hot采样和正交正则化的解纠缠框架。该框架提出一个交替的one-hot采样,通过将一个one-hot向量作为潜在表示来强制排他性,并鼓励每个维度捕获不同的语义特征,同时不牺牲潜在空间的连续性,并对模型权重采用正交正则化来更好的实现解纠缠的目的;
  • 发现了InfoGAN和类似结构的相关模型的一个弱点,文章将其归纳为竞争和冲突问题,并提出了一个模型结构的改变来解决它,此外,针对模型中生成部分的解纠缠问题,提出了一个新的度量方法。

本文的方法

文章对解纠缠问题的定义:对于连续控制向量 c\sim U(0,1) ,希望 G 能够对于 c 的每个维度分别控制一个生成数据的特征,同时希望特征提取器 Q 能够对于给定的 x 提取出与 c 一样的特征表示 c’ 。框架图如下:

交替连续和one-hot取样

通过最小化TC的方法通常有两个限制,首先由于难以计算,必须调用额外的网络或者目标函数来近似TC,这将导致额外的超参数调优,更复杂的训练机制和高额的计算开销,其次为了优化TC,会牺牲一部分数据生成的质量。而GAN通过对潜在向量直接采样,可以人为地采样具有多维间独立性地潜在向量,然后使用这些向量训练网络。

文章提出的交替连续离散采样过程:从 (0,1) 均匀采样的连续变量和one-hot向量之间交替采样,one-hot向量意味着生成的图像应该只显示一个特征,并且理想情况下 Q 的预测 c’ 应该也是one-hot向量,在 G Q 上,任何其它特征的存在都应该受到惩罚,而连续变量则为了保证GAN网络的潜在空间的连续性。

在训练过程中,将 c 视为一个连续向量,而交替的one-hot向量采样可以看作是 G Q 的正则化器,当从均匀分布 (0,1) 采样 c 时,需要保证 c x 之间的相关性保持不变,而采样one-hot变量时,可以解释为得到模型的极端样本(即位于均匀分布边界上的样本),突出了边界因素的语义,在这个过程中,训练 G 生成具有指定特征且不保留任何其他特征的图像,而训练 Q 只在一个维度上捕获突出的特征,不将特征表示扩展到多个维度。

即交替的one-hot采样和均匀采样的结果是一个更理想的优先分布,它提供了比单一均匀分布更典型的边缘样本。这种交替过程将分类采样(即单热采样)注入连续的 c 中,使得 c 在获得对生成过程的连续控制的同时,更加关注那些典型的例子,从而达到更好的解纠缠,所以本文的损失函数为:

\begin{array}{l} \min _{G} \max _{D} \mathcal{L}_{\text {OOGAN }}(D, G)=\mathcal{L}_{\text {GAN }}(D, G)+ \\ \qquad \begin{array}{l} \lambda I\left(c_{\text {continuous }}, G\left(c_{\text {continuous }}, z\right)\right)+ \\ \gamma \mathcal{L}_{\text {Cross-Entropy }}\left(Q\left(G\left(c_{\text {one-hot }(d)}, z\right)\right), c_{\text {one-hot }(d)}\right) \end{array} \end{array}

自由竞争的生成器

InfoGAN和许多条件GAN变体利用了一个辅助向量c,该向量在被输入G之前与噪声z连接,期望c携带可控的信息,但 z 的维度通常比 c 大很多,即 c 在生成过程中影响小很多,而对于无监督的解纠缠学习时, z 在生成过程中接受的很大一部分影响是不希望的,文章称其为竞争和冲突问题。

并且在学习 c 的解纠缠的同时,也可能导致 z 纠缠,例如 c 在某个特征上解纠缠,但 z 的多个维度具有相同的特征,则纠缠的 z 的信号的功率将超过解纠缠的 c ,这会阻碍 c 已学习到的特性,导致它偏离到一些更容易实现但不太明显的特征。竞争与冲突问题示例如下:

为了避免这种问题,文章提出了一种新的生成器输入架构:即使 c 维度较低,但使得 c 控制基本的内容生成而 z 对生成过程只产生有限的影响,输入模块为下图右边:

首先将低维的控制向量 c 投影到一个多通道 4\times4 的特征图,并将这个特征图加入到一个学习的同维常数张量中,常数张量的权重在训练前被随机初始化,并在所有生成中使用,这些权重是通过反向传播训练更新的。学到的常数张量可以认为是对数据集添加的偏置,用来表示特征没有捕捉到 c ,理想情况下,当给定的 c 为0时,这个常数应该让生成器生成最“中性”的 x ,直观上可以将这个常数认为是在目标分布中心的一个锚点,所有的潜在因子都可以向不同方向扩展,它鼓励模型专注于学习 c 和生成图像之间的关联。如果没有这个“常数”,模型仍然可以正常工作,但是收敛速度会变慢。同时为了更高质量的生成,传统的噪声 z 仍被输入生成器,但为了防止竞争和冲突问题,对 z 的特征图使用 c 生成的注意力掩码,即希望只有经过 c 批准的 z 的部分才能加入生成过程,并且只映射到 8\times8 大小的特征。

文章的生成器设计类似于StyleGAN,即输入均不是使用输入向量 z ,而是使用固定的多维特征图。StyleGAN认为这样能够更好地分离数据属性,并沿着潜在因子进行更线性的插值,但StyleGAN在固定权重仅用于图像生成过程,而文章则作为一种支持性偏置,将被 c 改变。

正交正则化和分组特征提取器

为了学习解纠缠表示,文章提出了一种新的使用分组卷积的 Q ,它对每个卷积核的权重施加正交正则化,因为希望 Q 是一个完全解纠缠的特征提取器,而普通的卷积则会在每个特征预测时考虑前一层的所有特征图,其次分组卷积可以将决策集中在更小的区间特征上,而不会被无关特征影响。

为了确保每一组关注不同的特征,文章在卷积层的权重上施加了额外的损失函数,以加强不同核之间的正交性,即在每次前向传播时,计算并最小化每个卷积核之间的余弦相似度。通过特征分组提取和正交正则化, Q 在结构上更容易捕获各个维度的多样化特征。

感知多样性指标

如果生成模型能够解纠缠,则空间向量 c 的每个维度应该产生不同的特征变化的生成图像 x ,假设 c 的一个合适的范围为 [a,b] ,和数据 (c^o,i,j) ,其中 c^o 是均匀采样向量, i,j 是随机选择的索引,通过设置 c^o[i]=b,c^o[j]=a 得到 c^i c^o[j]=b,c^o[i]=a 得到 c^j ,考虑到 i j 是控制不同的因子,则期望 x^i=G(c^i) x^j=G(c^j) 是不同的,因此使用预训练的 VGG 模型提取 x^i x^j 的特征,并将它们的 L_1 距离作为解纠缠的分数,当 L_1 距离越高,表示维度 i j 越独立。

不足之处:

感知多样性度量通常不应该用于比较不同结构的模型,也不能单独捕获模型的解纠缠能力。首先, L_1 的距离不是一个绝对的度量,例如VAE模型A产生模糊的图像,这可能导致该度量的较低值,与GAN模型B相比,后者的图像是清晰和高对比度的,但这并不一定意味着A解纠缠比B差。

部分实验结果