【论文解读】Self-Supervised GANs via Auxiliary Rotation Loss

wuchangjian2021-11-15 16:42:13编程学习

摘要

条件GAN是自然图像合成的前沿。这种模型的主要缺点是需要有标记的数据。在这项工作中,我们利用了两种流行的无监督学习技术,对抗训练和自监督,并朝着弥合条件GAB和无条件GAN之间的差距迈出了一步。特别地,我们允许网络在表现学习任务上进行协作,而与经典的GAN游戏相反。自监督的作用是鼓励鉴别者学习在训练过程中不会遗忘的有意义的特征表示。我们凭经验测试了学习图像表示的质量和合成图像的质量。在同样的条件下,自监督GAN获得了与最先进的条件对应算法相似的性能。最后,我们证明了这种完全无监督学习方法可以扩展到在无条件 IMAGENET 生成上达到 23.4 的 FID。

1.介绍

生成对抗网络 (GAN) 是一类无监督的生成模型。 GAN 涉及在对抗性游戏中训练生成器和判别器模型,以便生成器学习从所需的数据分布生成样本。训练 GAN 具有挑战性,因为它涉及在高维参数空间中搜索非凸博弈的纳什均衡。在实践中,GAN 通常使用交替随机梯度下降进行训练,这通常不稳定且缺乏理论保证。因此,训练可能会表现出不稳定、发散、循环行为或模式崩溃。因此,已经提出了许多稳定 GAN 训练的技术。训练不稳定的一个主要因素是生成器和鉴别器在非平稳环境中学习。特别是,鉴别器是一个分类器,其中一个类(假样本)的分布随着生成器在训练期间的变化而变化。在非平稳在线环境中,神经网络会忘记之前的任务。如果鉴别器忘记了之前的分类边界,训练可能会变得不稳定或循环。这个问题通常通过重用旧样本或应用持续学习技术来解决。这些问题在复杂数据集的背景下变得更加突出。这些设置中的一项关键技术是调节,由此生成器和鉴别器都可以访问标记数据。可以说,用监督信息增强鉴别器会鼓励它学习更稳定的表示,从而对抗灾难性遗忘。此外,学习每个类的条件模型比学习联合分布更容易。这种设置的主要缺点是需要标记数据。即使有标记数据可用,它通常也是稀疏的,并且只包含有限数量的高级抽象。
在上述挑战的推动下,我们的目标是表明人们可以恢复条件反射的好处,而无需标记数据。为了确保鉴别器学习到的表征更加稳定和有用,我们向鉴别器添加了一个辅助的、自监督的损失。这会导致更稳定的训练,因为鉴别器的表示对生成器输出质量的依赖性降低了。我们引入了一种新模型——自监督 GAN——其中生成器和鉴别器在表征学习任务上协作,并在生成任务上竞争。
贡献: 我们提出了一个无监督的生成模型,该模型将对抗性训练与自监督学习相结合。我们的模型恢复了条件 GAN 的优点,但不需要标记数据。特别是,在相同的训练条件下,自监督 GAN 弥补了无条件模型和条件模型之间在自然图像合成方面的差距。在这种情况下,鉴别器表示的质量大大提高,这在迁移学习的背景下可能是不同的。该模型的大规模实施在无条件 IMAGENET 生成方面取得了有希望的结果,这是一项艰巨的任务。我们相信这项工作是朝着高质量、完全无监督、自然的图像合成方向迈出的重要一步。

2.一个关键问题:鉴别器遗忘

GAN训练的原始值函数为:
在这里插入图片描述
其中 P d a t a P_{data} Pdata是真实数据分布, P G P_G PG是通过使用生成器给出的确定性映射对简单分布 z ∼ P ( z ) z ∼ P(z) zP(z)进行变换而产生的分布, x = G ( z ) x = G(z) x=G(z),而 P D P_D PD 是判别器的伯努利分布标签(真或假)。在原始的 minimax 设置中,生成器将方程 1 的参数最大化,而判别器将其最小化。训练通常通过交替随机梯度下降进行。因此,在训练期间的迭代 t 中,鉴别器将样本分类为来自 P d a t a P_{data} Pdata P G ( t ) P^{(t)}_G PG(t)。随着 G 的参数变化,分布 P G ( t ) P^{(t)}_G PG(t)发生变化,这意味着鉴别器的非平稳在线学习问题。
这一挑战得到了大量的关注,明确的时间依赖性被提出以改进这一设置的训练。此外,在非凸函数的在线学习中,神经网络已经被证明会忘记之前的任务。在GAN的背景下,学习不同层次的细节、结构和纹理,可以被认为是不同的任务。例如,如果生成器首先学习全局结构,鉴别器自然会尝试构建一个表示,使其能够仅基于全局结构的差异或局部结构的缺乏有效地惩罚生成器。因此,训练中不稳定性的一个来源是只要当前的表示对区分类别有用,鉴别器就没有动机去维护有用的数据表示。
进一步的证据可以通过考虑在收敛时的生成器和鉴别器来收集。Goodfellow等人表明,最优鉴别器估计生成的数据分布与真实数据分布之间的似然比。因此,给定一个完美的生成器,其中 P G = P d a t a P_G=P_{data} PG=Pdata,最优鉴别器只输出0.5,这是一个常数,不依赖于输入。因此,这个鉴别器不需要保留有意义的表示。此外,如果采用正则化方法,该判别器可能会忽略所有能区分真实数据和虚假数据的特征。
我们在两种情况下证明了鉴别器遗忘的影响。(1)如图3(a)所示的一个简单场景,(2)在GAN训练期间如图2所示。在第一种情况下,一个分类器在CIFAR10中的10个类上的所有分类任务上依次进行训练。在切换到下一个任务之前,它会在每个任务上进行1k次迭代的训练。在10k迭代时,训练周期从第一个任务开始重复。图3(a)显示了大量的遗忘,尽管任务相似。每次任务切换时,分类器的精度都会大幅下降。经过10k次迭代后,任务循环对CIFAR10中的10个类中的每一个都重复分类任务。在切换到下一个任务之前,它会在每个任务上进行1k次迭代的训练。在10k迭代时,训练周期从第一个任务开始重复。图3(a)显示了大量的遗忘,尽管任务相似。每次任务切换时,分类器的精度都会大幅下降。经过10k次迭代后,任务周期重复,精度与第一个周期相同。跨任务不携带任何有用的信息。这表明,在这种非平稳的环境中,该模型不能保留可一般化的表示。在图2所示的第二种设置中,我们在GAN训练中观察到类似的效果。每100k次迭代,鉴别器表示将通过图像集分类进行评估;完整的协议在第4.4节中描述。在训练过程中,无条件GAN的分类增加,然后减少,表明关于类的信息被获得,后来被遗忘。这种遗忘与训练的不稳定性有关。添加自监督,如下一节所述,可以防止忘记鉴别器表示中的类别。
在这里插入图片描述
在这里插入图片描述

3. The Self-Supervised GAN

由于鉴别器遗忘的主要挑战,我们的目标是赋予鉴别器一种机制,允许学习有用的表示,独立于当前生成器的质量。为此,我们利用了自监督方法的最新进展。自监督背后的主要思想是通过预测旋转角度或相对位置等借口任务来训练模型,然后从得到的网络中提取表示。我们建议在我们的鉴别器中添加一个自监督的任务。
特别地,我们应用了最先进的基于图像旋转的自监督方法。在这种方法中,图像被旋转,旋转的角度成为人工标签(见图1)。然后,自监督的任务是预测图像的旋转角度。这种额外损失对图像分类任务的影响在图3(b)中很明显:当结合自监督损失时,网络学习跨任务传输的表示,性能不断提高。在完成任务的第二个周期中,从10k次迭代开始,性能得到了提高。直观地说,这种损失鼓励分类器学习有用的图像表示来检测旋转角度,而旋转角度则转移到图像分类任务中。
我们用一个基于旋转的损失来增强鉴别器,从而产生以下损失函数:
在这里插入图片描述
其中V(G, D)为公式1中的值函数, r ∈ R r∈R rR是从一组可能的旋转中选择的一个旋转。在这项工作中,我们使用 R = 0 ° , 90 ° , 180 ° , 270 ° R={0°,90°,180°,270°} R=0°,90°,180°,270°。图像 x 旋转 r 度表示为 x r x^r xr, Q ( R ∣ x r ) Q(R|x^r) Q(Rxr)是鉴别器对样本旋转角度的预测分布。
协同对抗训练在我们的模型中,生成器和鉴别器在真与假预测损失V(G, D)方面是对抗的,然而,它们在旋转任务方面是协作的。首先,考虑生成器使生成的图像偏向图像的值函数,即当旋转时,鉴别器可以检测它们的旋转角度。请注意,生成器不是有条件的,而是只生成“直立”的图像,随后将其旋转并馈送给鉴别器。另一方面,该鉴别器训练仅根据真实数据检测旋转角度。换句话说,鉴别器的参数只根据真实数据上的旋转损耗来更新。这防止了不希望的协作解决方案,生成器生成的图像随后的旋转很容易检测。因此,鼓励生成器生成可旋转检测的图像,因为它们与用于旋转分类的真实图像共享特征。
协同对抗训练 在我们的模型中,生成器和鉴别器在真假预测损失 V ( G , D ) V(G,D) V(GD)方面是对抗性的,然而,它们在旋转任务方面是协作的。首先,考虑生成器的值函数,它使生成过程偏向于图像,当旋转时,鉴别器可以检测到它们的旋转角度。请注意,生成器不是有条件的,而是只生成“直立”图像,这些图像随后被旋转并输入给鉴别器。另一方面,训练鉴别器仅根据真实数据来检测旋转角度。换句话说,鉴别器的参数仅根据真实数据上的旋转损失进行更新。这防止了不希望的协作解决方案,即生成器生成图像的后续旋转很容易检测。因此,鼓励生成器生成可旋转检测的图像,因为它们与用于旋转分类的真实图像共享特征。
在实际应用中,我们使用一个有两个头的单一鉴别器网络来计算 P D P_D PD Q D Q_D QD。图1描述了训练管道。我们主要用四次旋转来旋转真实的图像和生成的图像。非旋转图像鉴别器的目标是预测输入是真的还是假的。在旋转的真实图像上,其目标是检测旋转角度。该生成器的目标是生成与观测数据相匹配的图像,其在鉴别器的特征空间中的表示允许检测旋转。随着 α > 0 α>0 α>0收敛到真实的数据分布,不能保证 P G = P d a t a P_G=P_{data} PG=Pdata。然而,在训练期间将 α α α退火到零将恢复保证。
在这里插入图片描述

4.实验

我们的经验证明(1)自监督提高了相对于基线GAN模型的表示质量,(2)在同等训练条件下,它可以改进复杂数据集的无条件生成,与条件GAN模型的性能相匹配。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.结论与未来工作

出于对抗鉴别器遗忘的动机,我们提出了一个结合了对抗性学习和自监督学习的深度生成模型。由此得到的新模型,即自监督GAN与最近引入的自调制相结合,可以在图像合成任务中匹配等效的条件GAN,而无需访问标记数据。然后,我们证明了该模型可以在无条件ImageNet生成时达到23.4,这是一项极具挑战性的任务。
这一系列的工作为未来的研究开辟了几条途径。首先,对鉴别器使用最先进的我监督架构,并优化可能的最佳表示将是很有趣的。其次,自监督的GAN可以用于半监督的设置,其中可以使用少量的标签来微调模型。最后,我们可以利用最近引入的一些技术,如自注意、正交归一化和正则化,以及采样截断,从而在无条件图像合成中获得更好的性能。
我们希望这种方法,将协作性的自监督和对抗性的训练相结合,可以为高质量的、完全无监督的、复杂数据的生成性建模铺平道路。

相关文章

【选型指南】#02 红外热像仪选型须知的7条重要参数

【选型指南】#02 红外热像仪选型须知的7条重要参数

接上期内容,我们了解了红外热成像的原理后,对于使用热成像仪的...

坚持“专库专用”路线,亚马逊云科技加速布局数据库服务

坚持“专库专用”路线,亚马逊云科技加速布局数据库服务

在如今的数据库市场,主要分为三股力量:Oracle、IBM、...

计算机等级考试考点要怎么报

1、全国计算机等级考试官网,点击注册,网站只在规定的报名期限...

Salesforce紧凑布局的限制和注意事项

紧凑布局的限制和注意事项 在使用紧凑布局时请谨记这些限制和注意事项。 所需的 E...

The Path to Learning WR Python FPE.5

FOREWORD     Python开发者有意让违反了缩进规则的程序不能通过编译&#...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。