真·无监督!延世大学提出图像到图像无监督模型,实验结果超SOTA

      最后更新:2020-06-16 10:34:35 手机定位技术交流文章

      作者|蒋宝山

      编辑|群集结束

      图像翻译的目的是用一个模型将源域图像转换成目标域图像,这通常包括从标签图到场景图的转换、图像风格的转换、人脸属性的转换以及从标签图到场景图的转换。

      自自生成对抗网络(如经典pix2pix、CycleGAN、StarGAN)提出图像翻译任务以来,图像翻译任务发展迅速。

      尽管上述模型实现了从源域图像到目标域图像的转换,但是它也需要一定的标签参与或者建立源域和目标域的各自的生成器。

      然而,韩国延世大学最近发表的一篇题为“反思真正无监督的图像到图像的翻译”的论文声称已经实现了真正的“无监督”学习。

      论文地址:https://arxiv.org/pdf/2006.06500.pdf

      本文的引言部分提到,一些最近的图像到图像模型至少使用了图像级(输入输出对)或设置级(域标签)监控中的一种。后者通常被称为“无监督的”,这种方法有另一个重要的假设:领域标签是先验的。

      在本文中,作者提出了一种真正无监督的图像到图像的翻译方法(TUNIT),它既不需要“输入/输出对”,也不需要域标签。它通过信息论方法学习分离图像域,并使用估计的域标签生成相应的图像。

      此外,作者在不同的数据集上比较了最先进的多域和跨域图像到图像转换模型FUNIT和MSGAN。实验结果表明,作者提出的方法能够成功实现领域分离和跨领域图像翻译。在半监督环境中,作者还声称他的方法的性能优于当前的设置级监督方法。

      1

      思想简介

      注意:方法概述如上,上图说明了猫品种模型转换的过程:1。使用引导网络的估计域训练多任务鉴别器;2.引导网络为生成器提供参考图像的模式代码。此外,估计域再次用于GAN训练。

      具体来说,作者通过三个子问题来解决这个问题:1)区分图像的集合特征(即域);2)编码输入图像的个体内容和风格;3)学习估计域之间的映射函数。

      此外,作者还引入了一个指导网络,为识别器和生成器提供伪域标签和编码风格特征。为了估计领域标签,作者还采用了一种无监督的方法,该方法可以最大化图像的领域分配与其增强版本之间的相互信息。这有助于引导网络将相似的图像分组在一起,同时平均划分类别。此外,通过参与图像转换过程,引导网络还可以利用来自发生器和鉴别器的梯度。

      注意:增强版是指随机剪切并水平翻转原始图像后生成的图像。

      对于嵌入的样式代码,作者使用对比度损失,这使得模型能够更好地理解图像之间的差异,从而更好地执行表示学习。此外,引导网络和对抗网络之间的交互也使得模型能够成功地分离域和翻译图像。

      2

      主要方法

      如前所述,引导网络有两个功能,一个是向生成器提供样式代码,另一个是向鉴别器提供伪域标签来指导翻译。此外,生成器还根据鉴别器的反馈合成目标域的图像,同时尊重参考图像的样式(例如毛发图案)并保持源图像的内容(例如姿势)。

      主要方法有两部分。首先是学习如何生成领域标签和编码风格特征。

      在这一部分中,作者使用无监督聚类方法自动生成给定图像的域标签,即最大化图像的域分配与其增强版本之间的互信息。公式如下:

      -4。-其中

      代表:

      虽然L_MI提供了一种自动生成输入图像的域标签的方法,但是当图像的分辨率高于64x64或者样本变得复杂多样时,它不能被放大。因此,我们的作者在制导网络中增加了一个辅助分支Estyle,并应用对比度损失来克服这一点,公式如下:

      第二部分是领域引导的图像到图像的转换。该部分旨在解决翻译模式应提供包含目标域视觉特征的真实图像的问题。为此,作者采用了三种损失:1)对抗损失生成现实图像;2)风格比较的损失,以鼓励模型不要忽略风格代码;3)图像重建损失以保持域不变特征。

      其中,作者采用多任务判别法进行对抗性损失训练,其设计目的是同时判别各个领域。然后,仅通过估计输入图像的域的损失来计算输入图像的梯度。

      此外,为了防止生成器忽略给定的样式代码而导致合成域中随机图像的退化,应用于生成器的样式对比度损失函数如下:

      为了确保生成器能够在给定原始样式的情况下重建源图像,它将图像重建损失应用如下:

      上述公式不仅可以确保生成器能够保留其输入图像的域不变特征(例如,姿态),而且还可以通过提取源图像的原始样式来帮助学习引导网络的样式表示。

      最后,一般训练模型公式表示如下:

      注意:λ是一个超级参数。

      3

      实验结果

      在实验部分,共进行了三个实验,即分析目标函数和训练策略的影响,在三个未标记的数据集上执行无监督的图像到图像的转换,以及在半监督环境中与最先进的(SOTA)技术进行比较。

      在训练策略效果实验中,作者选取了AnimalFaces 10数据集,并验证了在引导网络中引入防丢失技术可以提高模型的整体翻译性能。通过对训练策略的研究,证明了引导网络与GAN的互动确实提高了翻译效果。

      作者在AFHQ、FFHQ和LSUN CAR数据集上对该模型进行了评估,以研究所提出的处理无监督图像到图像转换的方法。总体结果如下:

      上图是在AFHQ野生类和来自每个域的样本图像上训练的引导网络的t-SNE结果。

      上图是定性图像翻译结果。每个图像由源图像和每个领域中所有测试图像的平均样式代码合成。可以清楚地看到,每个输出成功地反映了每个领域的视觉特征(即毛皮图案和颜色)及其物种的视觉特征。

      图8显示了FHQ和LSUN CAR的结果。尽管目前还不清楚如何在FFHQ中定义“领域”,但该网络已经成功地将图像分为不同的视觉类别,如眼镜、发色和刘海。

      作者的第三个实验是比较在半监督学习环境中,在两个方案下训练的最先进的翻译模型。下图显示了与用朴素方案训练的基线的定性比较。

      下图显示了分别在夏季2月和冬季10日使用分类FID的定量结果。随着比值(γ)的减小,基线模型的性能显著降低,而作者提出的模型不管γ如何,都将FID值保持在60和45左右。

      -15岁。-招募

      人工智能技术评论想要招聘一名技术编辑/记者

      办公地点:北京

      职位:主要关注学术热点和采访对象

      工作内容:

      1.密切关注学术领域的热点事件,并及时跟踪它们。

      2.采访人工智能领域的学者或研究人员;

      3.参加各种人工智能学术会议并报告会议内容。

      要求:

      1、热爱人工智能学术研究内容,擅长与学者或企业工程人员打交道;

      2.有一定的科学和工程背景,最好了解一些人工智能技术。

      3.英语能力强(工作涉及大量英语材料);

      4、学习能力强,对人工智能的前沿技术有一定的了解,并能逐渐形成自己的观点。

      有兴趣的人可以把简历发到jiangbaoshang@yanxishe.com

      本文由 在线网速测试 整理编辑,转载请注明出处,原文链接:https://www.wangsu123.cn/news/7996.html

          热门文章

          文章分类