基于生成对抗网络(GANs)的多模态图像-图像转换在具有较高内部变异性的视觉域表现不佳,如从多品种的猫到多品种的狗的转换。为了缓解这个问题,研究者将训练过程重新定义为为不同的分布建模,这些分布是按顺序观察的,例如,随着时间的推移,当遇到不同的类时。


结果,鉴别器可能会忘记之前的目标分布,这被称为灾难性遗忘,导致缓慢的收敛。通过实验观察,研究者发现鉴别器在训练过程中并不总是忘记之前学习的分布。因此,研究者提出了一种新的发电机调节GAN (GR-GAN)。本文以“Multimodal image-to-image translation between domains with high internal variability”为题于2020年6月12日发布于《Soft Computing》杂志上。

多种模态的图像转换,让它具有更高的质量!


研究背景


图像到图像的转换(简称图像转换)旨在学习两个不同视觉域之间的映射。基于生成对抗网络,最近取得显著进展,这个任务在计算机视觉界引起了相当大的关注,因为各种问题在计算机视觉可以冒充形象翻译问题,例如超分辨率,彩色化。


一个被广泛接受的观点是,两个可视域之间的映射本质上是多模态的,即单个输入可能对应多个似是而非的输出。为了实现多模态图像翻译,最近的研究提出源域和目标域的数据表示应该分解为内容和风格两部分。


更具体地说,内容是域不变的,样式捕获域特定的属性。假设内容与风格很好地解耦,通过将输入的内容向量与目标风格空间中的一系列随机风格向量重新组合,可以成功实现多模态翻译。

多种模态的图像转换,让它具有更高的质量!


图为发电机调节GaN


在此基础上,研究者提出了一种新的发电机调节GaN(GR-GaN),以提高在“高内可变性域”设置下的多模态图像平移性能。该方法通过自适应调整发电机网络的学习动态,在识别器的指导下,能够更有效地训练具有更强梯度的发电机。相反,当判别器发生灾难性遗忘时,该方法试图通过提供一个小的训练梯度来防止判别器对生成器的影响。所提出的GR-GaN算法具有边缘计算开销,可以在不改变原网络结构的情况下,方便地应用于各种图像转换模型。

多种模态的图像转换,让它具有更高的质量!


图为多模态图像翻译的信息流


为了在两个域之间建立这样的映射,使用了三种类型的约束:(1)当从源域映射到目标域时,输出必须与目标域的样本无法区分;(2)每个样本被转换成目标域,然后再转换回来,最终结果应该尽可能类似于原始样本;(3)这两种表示形式:含量和风格来自输入数据的编码仍然可以被解码回。


内部可变性高的区域使得多模态图像的翻译更加困难。在这样的背景下,研究者把基于GaN的图像翻译模型的训练过程看作是一个持续学习的问题。

多种模态的图像转换,让它具有更高的质量!


图为数据分析

多种模态的图像转换,让它具有更高的质量!


图为建议的GR-GaN概述


与现有的GaN基转换方法主要采用非饱和损耗函数不同,该研究在香草GaN的饱和损耗函数中引入了正则化项,实现了对发电机的自适应调整。

多种模态的图像转换,让它具有更高的质量!


图为GaN的饱和损耗函数和非饱和损耗函数


首先,研究者将研究者的方法与其他方法从视觉真实感的角度进行比较,以证明研究者的方法能够在领域内高多样性的情况下产生更真实的结果。接下来,研究者将证明研究者的方法能够综合更多不同的结果。然后,研究者将使用域适配任务来显示研究者的方法可以使生成的结果与目标域更加一致。此外,研究者还将比较不同GaN目标的模型的性能。最后,研究者将该方法的时间复杂度与其他算法进行了比较。


为了评估结果的真实性和比较不同类型GaN的性能,研究者在Oxford-iit宠物数据集上进行了实验。

多种模态的图像转换,让它具有更高的质量!


图为几个例子

多种模态的图像转换,让它具有更高的质量!


图为感性现实主义的定量结果


很容易观察到MUNIT-GR、CBNIT-GR和DROT-GR倾向于合成更接近实际情况的特征,例如猫的耳朵竖立,狗的耳朵下垂。要做到这一点,翻译需要模型能够做出重大的高层语义变化.研究者还可以观察到,基线方法通常只改变非常低级别的特征(颜色和纹理),甚至可以认为它们只是在复制输入。


首先利用这些图像转换模型将标记源域图像转换为目标域,生成标记的目标域图像。利用生成的标记图像作为训练数据,对目标域样本分类器进行训练。为了进行公平的比较,分类器网络的结构与PixelDA保持一致。除了研究者提到的基线之外,研究者还使用最先进的域自适应算法PixelDA进行比较。


研究者首先定性地比较了MUNIT和MUNIT-GR在人工剪裁的LineMod上的视觉质量。很容易看出,研究者的方法的结果是高质量的,特别是在种植莱尼模。


研究结论


在该研究中,研究者讨论了具有高度内可变性的视觉域之间的多模态图像转换,并提出了一种新的GR-GaN来解决这种情况下的不收敛问题。


该方法计算量小,易于应用于各种图像翻译模型,而不需要修改原有的网络结构。定性和定量结果都表明,该方法能显著提高图像的翻译性能。


参考文献:Jian Wang, Jiancheng Lv, Xue Yang, Chenwei Tang & Xi Peng Multimodal image-to-image translation between domains with high internal variability  Soft Computing 18173–18184(2020)



免责声明

我来说几句

不吐不快,我来说两句
最新评论

还没有人评论哦,抢沙发吧~