图像抠图介绍
通常而言,对于一张图像,需要求解出它的前景,背景及alpha matte,基于alpha通道则可以将前景与任意背景进行组合得到新的图像,因此alpha matte是一个与原图同大小的一个单通道图像,每个像素对应于原RGB图像相同位置像素的alpha值。
上式z为输入图像的像素位置,,和分别为像素z处的alpha估计,前景和背景。
为了降低求解难度,通过使用人工标记的三元图来提供更多约束,即将一副图像分成绝对前景(FG,对应于下图的白色)、绝对背景(BG,对应于下图的黑色)以及过渡区域(对应于下图的灰色),这样只需要求解过渡区域的像素对应的alpha值。即本质上是逐像素的前景区域的回归,认为FG的结构来源于两个方面:自适应的语义和细化边界,对应于上式中的和视图。
动机
- 现有的基于深度学习的抠图算法主要依靠高级语义特征(提供FG的种类等)和外观特征(纹理和边界细节)来改进alpha mattes的整体结构。
- 一方面,自然图像抠图是一个本质上的回归问题,不完全依赖于图像语义,这意味着深度网络提取的语义属性对图像结构的贡献是不相等的。另一方面,外观线索在保留复杂图像纹理的同时,也包含了FG之外的细节。然而,现有的抠图网络忽视了对这种层次特征的深层次挖掘和提炼。
- 所以,本文认为从cnn中提取的高级语义对alpha感知的贡献是不平等的,应该调和高级语义信息和低级外观线索,需要在组合前进行适当的过滤,以细化前景细节。
贡献
- 提出了一种端到端的分层注意力抠图网络(HAttMatting),该网络可以在不增加任何输入的情况下实现高质量的注意力抠图;
- 设计了一个分层注意机制,它可以聚合外观线索和高级金字塔特征,以产生细粒度的边界和自适应的语义;
- 采用了均方误差(MSE)、结构相似性(SSIM)和对抗损失等组成的混合损失来提高alpha感知,为文中的HAttMatting训练提供有效的指导。