0%

论文阅读-disentanglement-InfoGAN_Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets

动机

  • 流行的无监督学习框架-表示学习的目的是使用无标签的数据学习一个表示,以揭露重要的语义特征作为容易解码的因子,使得对下游任务有用;
  • 为了发挥作用,一个无监督的学习算法必须在不直接接触下游任务的情况下正确地猜测可能地任务集,出于对创建的观测数据需要的某种形式的理解,常希望生成模型自动学习解纠缠的表示;
  • GAN使用一个连续的输入噪声 z ,同时对生成器可能使用这种噪声的方式没有限制。因此,生成器可能会以一种高度纠缠的方式使用噪声,导致 z 的单个维度与数据的语义特征不一致。

贡献

  • 提出了一种无监督的GAN框架InfoGAN,通过最大化隐变量的一个子集与观测之间的互信息,推导出了可有效优化的互信息目标函数下界;
  • 实验表明InfoGAN学习的可解释性表示与现有的监督方法学习的表示具有竞争性。

诱导隐编码的互信息

GAN使用一个连续的输入噪声 z ,同时对生成器可能使用这种噪声的方式没有限制。因此,生成器可能会以一种高度纠缠的方式使用噪声,导致 z 的单个维度与数据的语义特征不一致。

但是许多域会自然地分解为一系列语义相关的变化因子,比如MNIST数据集,理想情况下希望模型能够自动选择出对应数字类别(0-9)的离散变量,并选择两个额外的连续变量表示数字的角度和粗细。

所以本文将输入的噪声向量分解为两部分:不可压缩噪声 z 和学习数据分布的结构化语义特征的隐编码 c ,即生成器的分布变成了 G(z,c) ,而标准GAN忽略了隐编码 c ,所以需要找到一种解决方法满足 P_G(x|c)=P_G(x) ,本文提出了一种信息论正则化方法:即隐编码 c 和生成器分布 G(z,c) 之间应该有较高的互信息量 I(c;G(z,c))

对于互信息的定义 I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X) ,其中 I(X;Y) 表明观测到随机变量 Y 时, X 的不确定性减少的程度,即如果 X Y 由一个很强的可逆的函数关联,则会有很大的互信息量,所以不希望隐编码 c 中的信息在生成过程中丢失,所以损失函数为:

\min _{G} \max _{D} V_{I}(D, G)=V(D, G)-\lambda I(c ; G(z, c))

变分互信息的最大化

很难直接通过先验 P(c|x) 去求解 I(c;G(z,c)) ,所以采用定义一个辅助分布 Q(c|x) 去近似 P(c|x)

\begin{aligned} I(c ; G(z, c)) &=H(c)-H(c \mid G(z, c)) \\ &=\mathbb{E}_{x \sim G(z, c)}\left[\mathbb{E}_{c^{\prime} \sim P(c \mid x)}\left[\log P\left(c^{\prime} \mid x\right)\right]\right]+H(c) \\ &=\mathbb{E}_{x \sim G(z, c)}[\underbrace{D_{\mathrm{KL}}(P(\cdot \mid x) \| Q(\cdot \mid x))}_{\geq 0}+\mathbb{E}_{c^{\prime} \sim P(c \mid x)}\left[\log Q\left(c^{\prime} \mid x\right)\right]]+H(c) \\ & \geq \mathbb{E}_{x \sim G(z, c)}\left[\mathbb{E}_{c^{\prime} \sim P(c \mid x)}\left[\log Q\left(c^{\prime} \mid x\right)\right]\right]+H(c) \end{aligned}

本文直接将隐编码 c 固定,故 H(c) 直接作为一个常数。同时由引理,对于随机变量 X Y 和函数 f(x,y) \mathbb{E}_{x \sim X, y \sim Y \mid x}[f(x, y)]=\mathbb{E}_{x \sim X, y \sim Y\left|x, x^{\prime} \sim X\right| y}\left[f\left(x^{\prime}, y\right)\right] ,得到互信息的变分下界:

\begin{aligned} L_{I}(G, Q) &=E_{c \sim P(c), x \sim G(z, c)}[\log Q(c \mid x)]+H(c) \\ &=E_{x \sim G(z, c)}\left[\mathbb{E}_{c^{\prime} \sim P(c \mid x)}\left[\log Q\left(c^{\prime} \mid x\right)\right]\right]+H(c) \\ & \leq I(c ; G(z, c)) \end{aligned}

其中 L_I(G,Q) 比较容易使用蒙特卡洛模拟来近似,并且可以用重参数化技巧来直接最大化 Q G ,所以最后InfoGAN的损失函数为:

\min _{G, Q} \max _{D} V_{\text {InfoGAN }}(D, G, Q)=V(D, G)-\lambda L_{I}(G, Q)

实现

将辅助分布 Q 作为一个神经网络,其中 Q D 共享所有卷积层,并通过一个全连接层输出参数的条件分布 Q(c|x) ,对于类别隐编码 c_i ,使用softmax来选择 Q(c_i|x) ,对于连续隐编码 c_j ,本文使用一个高斯函数来表示 Q(c_j|x) ,本文是基于DCGAN来做的实验。

部分实验结果

互信息最大化

通过上图发现,对于标准GAN而言,隐编码跟生成的图像之间几乎没有互信息,说明标准GAN不能保证生成器在利用隐编码。

解纠缠表征

实验设置:包含离散的类别编码 c_1\sim Cat(K=10,p=0.1) ,连续编码 c_2,c_3 \sim Unif(-1,1) 分别代表角度和字体粗细。由上图可以看出,其解纠缠的能力很出色。