0%

论文阅读-text2image synthesis-ReCo: Region-Controlled Text-to-Image Generation

动机

  • 文图生成中text-only query的可控性有限,如简单地使用与位置相关的文本词通常会造成模糊的input query,且当text query很长、复杂或描述罕见场景,模型可能会忽略某些细节而只遵循视觉或语言先验;
  • layout-to-image generation在区域控制方面有一定作用,但很难理解自由形式的文本输入,也不能理解开放文本描述和空间位置的组合。

贡献

  • 提出一种预训练文图生成模型ReCo,在region-controlled input query中引入position tokens,用户可在图像区域自由指定regional descriptions
  • 基于Stable Diffusion实例化ReCo,可基于输入queryregional instructions生成高质量的图像;
  • 设计了一个evaluation benchmark来评估region-controlled的生成能力。

本文的方法

ReCo旨在探索文本条件和位置条件的协同生成,其核心思想是引入额外的input position tokens表示空间坐标,将图像的w/h均匀量化为 N_{bins} bins,任意坐标被最近邻的bin近似和量化。在额外的embedding E_p 下,position token被映射到与text token相同的空间,则区域控制文本输入为<x1>, <y1>, <x2>, <y2>, <free-form text description>。然后使用 E_p 微调预训练的T2I模型,以从region-controlled input query中生成图像。

Preliminaries

Stable Diffusion基于Latent Diffusion Model,由一个auto-encoder、一个用于噪声估计的U-Net和一个CLIP ViT-L/14 text encoder构成。对于auto-encoderencoderdown-sampling factor 8 ,其将输入图像 x 编码为用于扩散过程的隐编码 z decoder则从 z 重建图像 \hat{x} ;对于U-Net,则以去噪时间步长 t 和文本条件 \tau_{\theta}(y(T)) 为条件,其中 y(T) text tokens T input text query,而 \tau_{\theta} CLIP text encoder将文本序列映射的embedding

Region-Controlled T2I Generation

input sequence

如上图所示,ReCo引入直接表示空间位置的position tokens,即将区域的位置和大小用浮点数表示为左上、右下坐标<x1>, <y1>, <x2>, <y2>,记作 P 。在image description后添加多个region-controlled texts,即四个position tokens和相应的区域描述。ReCo在预训练的text word embedding上引入position token embedding E_p\in \mathbb{R}^{N_{\text{bins}} \times D} ,其中 N_{\text{bins}} 为位置标记的个数, D 是标记嵌入的维度。然后将整个序列联合处理,将token映射到D-dimtoken embedding,输入预训练的CLIP text encoder映射为扩散模型的条件输入squence embedding

fine-tuning

ReCo将带text tokens T text-only query y(T) 扩展为组合text word T position token P input query y(P, T) ,使用与Stable Diffusion相同的损失函数:

L=\mathbb{E}_{\mathcal{E}(x), y(P, T), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_\theta\left(z_t, t, \tau_\theta(y(P, T))\right)\right\|_2^2\right]

其中 \epsilon_{\theta} \tau_\theta fine-tuned的网络模块,除了position token embedding E_{p} ,其余模型参数均由Stable Diffusion初始化。对于训练数据,在按照标注的bounding boxes裁剪的图像区域上应用caption model GIT获得区域描述;在微调时将图像短边resize 512 并随机crop一个正方形区域作为输入图像 x

实验

Stable Diffusion v1.4 checkpointReCo进行微调,引入 N=1000 position tokens,并将text encoder的最大长度增加到 616 batchsize 2048 ,使用固定学习率 1e-4 AdamW训练模型 20000 步。

实验数据

对于input queries,从数据集中获取图像描述和边界框,并在裁剪区域上使用GIT生成区域描述,在COCO、PaintSkill、LVIS上进行测试。

  • 使用COCO 2014 training setstable duffisonfinetune,并从COCO 2014 validation set采样的子集上测试;
  • PaintSkill用于评估模型在任意位置的边界框和生成图像是否具有正确的目标类型/数量/关系的能力;
  • LVIS用于评估模型是否理解open-vocabulary的区域描述,其目标类别在finetune数据中不可见。

评估方法

为了评估区域控制,设计了一种基于预训练的regional object classifierobject detector,即在生成的图像区域应用object classifier,在整个图像上应用object detector,更好的精度意味着生成的目标layout跟用户query中的位置有更好的对齐。

对于region control accuracy,使用Object Classification AccuracyDETR detector Average PrecisionObject accuracyGT image crops上训练,以分类生成图像的裁剪区域;DETR detector AP则检测生成图像的目标,并与input object query比较。

对于image generation quality,使用FID评估,对于区域图像的质量,使用SceneFID,即根据input object boxes在裁剪区域计算FID。在center-cropped COCO图像上根据Clean-FID repo计算FIDSceneFID,在PaintSkill上则进行人工评估。

部分实验结果

COCO

PaintSkill

LVIS

区域描述时使用开放式文本或受限目标类别的区别