Transformer也能天生图像，新型ViTGAN功能比肩基于CNN的GAN

2022-11-17 09:34:51 作者：世当戮灭

导读：Transformer也能生成图像，新型ViTGAN性能比肩基于CNN的GAN,选自arXiv作者：Zhuowen Tu、Ce Liu等机器之心编译编辑：PandaTransformer 已经为多种自然语言任务带来了突飞猛进的进步，并且最近也已...

选自arXiv

作者：Zhuowen Tu、Ce Liu等

呆板之心编译

编辑：Panda

Transformer 已经为多种天然说话使命带来了突飞大进的前进，而且近来也已经开始向盘算机视觉范畴渗入渗出，开始在一些之前由 CNN 主导的使命上暂露头角。克日，加州大学圣迭戈分校与 Google Research 的一项研究提出了利用视觉 Transformer 来练习 GAN。为了有用应用该要领，研究者还提出了多项革新本领，使新要领在一些指标上可比肩前沿 CNN 模子。

卷积神经网络（CNN）在卷积（权重共享和局部毗连）和池化（平移等变）方面的壮大本领，让其已经成为了现今盘算机视觉范畴的主导技能。但近来，Transformer 架构已经开始在图像和视频辨认使命上与 CNN 比肩。此中尤其值得一提的是视觉 Transformer（ViT）。这种技能会将图像作为 token 序列（雷同于天然说话中的词）来解读。Dosovitskiy et al. 的研究评释，ViT 在 ImageNet 基准上能以更低的盘算本钱取得相称的分类正确度。差别于 CNN 中的局部毗连性，ViT 依靠于在全局配景中思量的表征，此中每个 patch 都一定与统一图像的全部 patch 都联系关系处置惩罚。

ViT 及其变体只管还处于早期阶段，但已有研究展示了其在建模非局部上下文依靠方面的优异远景，而且也让人看到了其杰出的服从和可扩展性。自 ViT 在前段时间诞生以来，其已经被用在了目的检测、视频辨认、多使命预练习等多种差别使命中。

克日，加州大学圣迭戈分校与 Google Research 的一项研究提出了利用视觉 Transformer 来练习 GAN。这篇论文的研究议题是：不利用卷积或池化，可否利用视觉 Transformer 来完成图像天生使命？更详细而言：可否利用 ViT 来练习天生反抗网络（GAN）并使之到达与已被遍及研究过的基于 CNN 的 GAN 相媲美的质量？

论文链接：http://www.yaotansuo.com/allimgs/39tansuo/20221117/4007.png.pdf style="text-align: left;" data-track="16">为此，研究者依照最来源根基的 ViT 设计，利用纯粹根本的 ViT（如图 2(A)）练习了 GAN。此中的难点在于，GAN 的练习历程在与 ViT 耦合之后会变得非常不稳健，而且反抗练习每每会在鉴别器练习的后期受到高方差梯度（或尖峰梯度）的拦阻。别的，梯度惩处、谱归一化等传统的正则化要领固然能有用地用于基于 CNN 的 GAN 模子（如图 4），但这些正则化要领却无法办理上述不稳健题目。利用了得当的正则化要领后，基于 CNN 的 GAN 练习不稳健的情形并不常见，是以对基于 ViT 的 GAN 而言，这是一个独占的挑衅。

针对这些题目，为了实现练习动态的稳健以及促进基于 ViT 的 GAN 的收敛，这篇论文提出了多项必须的修改。

在鉴别器中，研究者重新审视了自细致力的 Lipschitz 性子，在此底子上他们设计了一种增强了 Lipschitz 一连性的谱归一化。差别于难以应付不稳健情形的传统谱归一化要领，这些技能能非常有用地稳健基于 ViT 的鉴别器的练习动态。别的，为了验证新提出的技能的作用，研究者还实行了操纵变量研究。对付基于 ViT 的天生器，研究者实验了多种差别的架构设计并发觉了对层归一化和输出映射层的两项要害性修改。试验评释，不管利用的鉴别器是基于 ViT 照旧基于 CNN，基于修改版 ViT 的天生器都能更好地促进反抗练习。

为了更具说服力，研究者在三个尺度的图像合成基准上举行了试验。效果评释，新提出的模子 ViTGAN 极大优于之前的基于 Transformer 的 GAN 模子，而且在没有利用卷积和池化时也取得了与 StyleGAN2 等领先的基于 CNN 的 GAN 相媲美的体现。作者表现，新提出的 ViTGAN 算得上是在 GAN 中利用视觉 Transformer 的最早实验之一，更紧张的是，这项研究初次评释 Transformer 能在 CIFAR、CelebA 和 LSUN 卧房数据集等尺度图像天生基准上凌驾当前最佳的卷积架构。

要领

图 1 展示了新提出的 ViTGAN 架构，其由一个 ViT 鉴别器和一个基于 ViT 的天生器组成。研究者发觉，直接利用 ViT 作为鉴别器会让练习不稳健。为了稳健练习动态和促进收敛，研究者为天生器和鉴别器都引入了新技能：(1) ViT 鉴别器上的正则化和 (2) 新的天生器架构。

图 1：新提出的 ViTGAN 框架表示图。天生器和鉴别器都是基于视觉 Transformer（ViT）设计的。鉴别器分数是从分类嵌入推导得到的（图中记为 *）；天生器是基于 patch 嵌入逐个 patch 天生像素。

加强 Transformer 鉴别器的 Lipschitz 性子。在 GAN 鉴别器中，Lipschitz 一连性发挥偏重要的作用。人们最早细致到它的时间是将其用作类似 WGAN 中 Wasserstein 间隔的一个条件，之后其又在利用 Wasserstein 丧失之外的别的 GAN 设置中得到了确认。此中，尤其值得存眷的是 ICML 2019 论文《Lipschitz generative adversarial nets》，该研究证明 Lipschitz 鉴别器能确储存在最优的鉴别函数以及唯一的纳什平衡。但是，ICML 2021 的一篇论文《The lipschitz constant of self-attention》评释尺度点积自细致力层的 Lipschitz 常数可所以无界的，这就会粉碎 ViT 中的 Lipschitz 一连性。为了增强 ViT 鉴别器的 Lipschitz 性子，研究者采纳了上述论文中提出的 L2 细致力。如等式 7 所示，点积相似度被更换成了欧几里得间隔，而且还联系关系了投影矩阵的权重，以用于自细致力中的盘问和键（key）。这项革新能提拔用于 GAN 鉴别器的 Transformer 的稳健性。

颠末革新的谱归一化。为了进一步强化 Lipschitz 一连性，研究者还在鉴别器练习中利用了谱归一化。尺度谱归一化是利用幂迭代来估量每层神经网络的投影矩阵的谱范数，然后再利用估量得到的谱范数来除权重矩阵，如许所得到的投影矩阵的 Lipschitz 常量就即是 1。研究者发觉，Transformer 模块对 Lipschitz 常数的巨细很敏感，当利用了谱归一化时，练习速率会非常慢。雷同地，研究者还发觉当利用了基于 ViT 的鉴别器时，R1 梯度惩处项会有损 GAN 练习。尚有研究发觉，假如 MLP 模块的 Lipschitz 常数较小，则大概导致 Transformer 的输出坍缩为秩为 1 的矩阵。为相识决这个题目，研究者提出增大投影矩阵的谱范数。

他们发觉，只需在初始化时将谱范数与每一层的归一化权重矩阵相乘，便足以办理这个题目。详细而言，谱归一化的更新规章如下，此中 σ 是盘算权重矩阵的尺度谱范：

重叠图像块。因为 ViT 鉴别用具有过多的进修本领，是以简单过拟合。在这项研究中，鉴别器和天生器利用了同样的图像表征，其会依据一个预界说的网络 P×P 来将图像支解为由非重叠 patch 构成的序列。假如不颠末经心设计，这些恣意的网络分别大概会促使鉴别器记着局部线索，从而无法为天生器提供故意义的丧失。为相识决这个题目，研究者采纳了一种简洁本领，即让 patch 之间有所重叠。对付 patch 的每个边沿，都将其扩展 o 个像素，使有用 patch 尺寸变为 (P+2o)×(P+2o)。

如许得到的序列长度与本来一样，但对预界说网格的敏感度更低。这也有大概让 Transformer 更好地相识当前 patch 的相近 patch 是哪些，由此更好地了解局部特性。

天生器设计

基于 ViT 架构设计天生器并非易事，此中一浩劫题是将 ViT 的功效从猜测一组种别标签转向在一个空间地区天生像素。

图 2：天生器架构。左图是研究者研究过的三种天生器架构：(A) 为每个位置嵌入添加中心隐蔽嵌入 w，(B) 将 w 预置到序列上，(C) 利用由 w 进修到的仿射变更（图中的 A）盘算出的自调制型层范数（SLN/self-modulated layernorm）更换归一化。右图是用在 Transformer 模块中的自调制运算的细节。

研究者先研究了多种天生器架构，发觉它们都比不上基于 CNN 的天生器。于是他们遵照 ViT 的设计道理提出了一种全新的天生器。图 2(c) 展示了这种 ViTGAN 天生器，其包罗两大组件：Transformer 模块和输出映射层。

为了促进练习历程，研究者为新提出的天生器做出了两项革新：

自调制型层范数（SLN）。新的做法不是将噪声向量 z 作为输入发送给 ViT，而是利用 z 来调制层范数运算。之以是称如许的操纵为自调制，是由于该历程无需外部信息；
用于图块天生的隐式神经表征。为了进修从 patch 嵌入到 patch 像素值的一连映射，研究者利用了隐式神经表征。当联合傅里叶特性或正弦激活函数一路利用时，隐式表征可将所天生的样本空间束缚到腻滑改变的天然信号空间。研究发觉，在利用基于 ViT 的天生器练习 GAN 时，隐式表征的作用尤其大。

必要指出，因为天生器和鉴别器的图像网格差别，是以序列长度也纷歧样。进一步的研究发觉，当必要将模子扩展用于更高辨别率的图像时，只需增大鉴别器的序列长度或特性维度就充足了。

试验效果

表 1：几种代表性 GAN 架构在无条件图像天生基准的效果比力。Conv 和 Pool 各自代表卷积和池化。↓ 表现越低越好；↑ 表现越高越好。

表 1 给出了在图像合成的三个尺度基准上的重要效果。本论文提出的新要领能与以下基准架构比肩。TransGAN 是现在唯一完全不利用卷积的 GAN，其完全基于 Transformer 构建。这里比力的是其最佳的变体版本 TransGAN-XL。Vanilla-ViT 是一种基于 ViT 的 GAN，其利用了图 2(A) 的天生器和纯洁版 ViT 鉴别器，但未利用本论文提出的革新技能。

表 3a 中分别比力了图 2(B) 所示的天生器架构。别的，BigGAN 和 StyleGAN2 作为基于 CNN 的 GAN 的最佳模子也被纳入了比力。

图 3：定性比力。在 CIFAR-10 32 × 32、CelebA 64 × 64 和 LSUN Bedroom 64 × 64 数据集上，ViTGAN 与 StyleGAN2、Transformer 最佳基准、纯洁版天生器和鉴别器的 ViT 的效果比力。

图 4：(a-c) ViT 鉴别器的梯度幅度（在全部参数上的 L2 范数），(d-f) FID 分数（越低越好）随练习迭代的改变情形。

可以看到，新提出要领的体现与利用 R1 惩处项和谱范数的两个纯洁版 ViT 鉴别器基准相称。别的架构对全部要领来说都一样。可见新要领能降服梯度幅度的尖峰并实现明显更低的 FID（在 CIFAR 和 CelebA 上）或相近的 FID（在 LSUN 上）。

表 3：在 CIFAR-10 数据集上对 ViTGAN 实行的操纵变量研究。左图：对天生器架构的操纵变量研究。右图：对鉴别器架构的操纵变量研究。

相关推荐