我对目前GAN经典的及最新的较有影响力的论文进行了阅读与整理,目前仅完成了论文梗概的总结。后续将会分篇详细介绍。
归类 | 题目 | 发表 | 贡献概要 |
理论 | Generative Adversarial Nets (Ian Goodfellow, Yoshua Bengio) | NIPS2014 | 发明GAN,生成器与判别器是较简单的多层感知机,对比了RBM、MCMC、DBN、CAE、GSN等工作,给出经典的二元的优化目标,训练过程的图解及算法流程(训练k次D后更新G,随机梯度下降法优化),证明了唯一最优解的存在,说明了最优解时分布的情况,在MNIST、TFD、CIFAR-10上展示了生成图像 |
Wasserstein Generative Adversarial Networks (Martin Arjovsky, Soumith Chintala, Leon Bottou) | ICML2017 | 解决原始GAN训练困难、loss函数无法指示训练过程、生成样本缺乏多样性的问题。分析了原GAN中度量分布远近的距离指标:KL散度和JS散度的缺点——训练过程中出现梯度为零无法学习的情况。引出Wasserstein解决以上问题。将该距离引入训练过程,同时为了求解推导出其对偶问题,以Lipschitz限制其最大局部浮动程度(直观上试图使得输入的样本稍微变化后,判别器给出的分数不能发生太过剧烈的变化,实现时仅仅通过限制各参数的变动范围)。由于拟合的是Wasserstein距离,故去掉最后的sigmoid是问题变为回归问题。(中山大学郑华滨分析) | |
Improved Training of Wasserstein GANs (Martin Arjovsky) | ArXiv2017 | WGAN虽然理论分析完美,但是训练时发现训在不收敛的情况。WGAN的一作认为关键在于原设计中Lipschitz限制的施加方式不对,使得判别器非常倾向于学习一个简单的映射函数。其在新论文中提出了相应的改进方案:使用梯度惩罚的方法,加入新的loss项使梯度越接近Lipschitz常数K越好,在采样时也不需要整个空间上采,而是抓住生成样本与真实样本集中的区域进行采样求取loss。 | |
Towards Principled Methods for Training Generative Adversarial Networks | ICLR2017 | 是WGAN的前作,详细分析了GAN存在的问题,最后提出解决方案。其分析了以下几个问题:为何D越好则更新过程越糟糕(D过好则难以学出正确的梯度信息);为何GAN的训练非常不稳定(因为G和D的loss优化目标是相反的);梯度消失问题(两个分布很难有交集,原来的loss函数算出的loss为常数,本文给出一种解决方法是1加入噪声使两分布拉近,2使用Wasserstein距离这种连续性度量的距离) | |
Loss-Sensitive Generative Adversarial Networks on Lipschitz Densities (Guojun Qi,伊利诺伊大学) | ArXiv2017 | 与WGAN关系密切,均采用Lipschitz限制。由于GAN未对真实样本的分布做任何的限定,使得GAN模型具有无限的建模能力,也就导致了过拟合。LSGAN限制其无限建模能力,换成使用按需分配(集中力量优化生成的不好即距离真实样本较远的图像)的建模形式。其引入新的目标函数来实现这一能力。文章给出了LSGAN泛化能力的分析、与WGAN的对比,在第8章给出推广:CLSGAN使得可以利用类别标签来让GAN获得不同类别的生成能力(c设置为类别标签只是其模型的一个特例),文中还分析了在给定条件下的解的理论分析结果。 | |
On Unifying Deep Generative Models (Zhiding Hu,CMU) | ArXiv2017 | 构建 GAN 和 VAE 深度生成建模方法之间的形式联系。首先对各自进行综述,对二者的各个步骤进行对比,认为其有着深刻的联系。然后提出二者的结合形式,如对抗变分自编码器。 | |
改进 | Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks | ArXiv2015 | DCGAN,对原始GAN的第一个重要改进。为生成器与判别器引入深度模型,在generator和discriminator上都使用batch normalization,无理论创新,均为深度模型训练时的改进。 |
InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets (Xi Chen) | NIPS2016 | 条件GAN,使得输入向量的每个值都有各自对应的含义(可解释性),如控制生成的类别、控制生成人物的发色等。方法是最大化输入的随机向量+条件向量与输出分布之间的互信息,使得输入的条件信息与输出的相关性变大。其在D中给出各个类的概率,然后在loss中也添加相应的loss项(Ls+Lc)。最后展示的结果也是按照各个类别产生的新图像,在MNIST、3D人脸与3D椅子等数据集上给出了生成图像的展示。 | |
Improved Techniques for Training GANs (Tim Salimans,Goodfellow,Xi Chen) | ArXiv2017 | 提出了训练GAN时的几种技巧,主要是一种新的BN方法(原来的BN能够提高网络的收敛,但是问题是layer的输出和本次batch内的其他输入相关):首先从训练集中拿出一个batch在训练开始前固定起来,算出这个特定batch的均值和方差,进行更新训练中的其他batch。再就是特征匹配,提出以中间特征作为衡量标准,而不是预测的标签。在MNIST、CIFAR-10、SVHN上得到了目前最好的结果。 | |
Adversarial Feature Learning | ICLR2017 | - | |
与各领域的结合 | Unsupervised and Semi-Supervised Learning with Categorical Generative Adversarial Networks | ICLR2016 | 从未标记或部分标记的样本中学习判别分类器。在观测样本和他们预测的类别分布间trades-off互信息,对生成式聚类、判别式聚类等进行了综述,通过指派一个标签y给每个样本,将数据分类到K个类别中去的分类器,而不是学习一个二分类函数,将问题由“生成器生成属于数据集的样本”变为“生成属于K个中的一个确切的类别的样本”。在其方法中,会先定性地评估对抗生成器生成的样本的保真度,然后确定CatGAN目标和判别聚类算法(RIM)之间的联系。 |
Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network | CVPR2017 | 将生成式对抗网络(GAN)用于SR问题(引入D来解决不同数据域之间分布不一致的问题),使用GAN生成图像中的细节。传统的方法使用的代价函数一般是最小均方差(MSE),即各个像素之间的差值,但这样做会使得生成的图像过于平滑。本文的目标函数第一部分是基于内容的代价函数,第二部分是基于对抗学习的代价函数。基于内容的代价函数除了传统的像素空间的最小均方差以外,又包含了一个基于特征空间的最小均方差。 | |
Semantic Segmentation using Adversarial Networks (FAIR, Soumith Chintala-WGAN二作) | NIPS2016 |
| |
Generative Adversarial Text to Image Synthesis | ICML2016 |
|