基于特征提取生成对抗网络的实例转换研究毕业论文
2021-11-06 23:04:46
摘 要
图像作为人类对外界信息接受处理的重要载体,在计算机科学中为重要的研究对象。随着机器学习的技术发展,图像处理技术与机器学习相融合,取得了许多重要的研究成果。生成对抗网络作为近些年炙手可热的生成模型,在图像处理领域有许多成功的应用。生成高质量图片、提高模型泛化性对生成模型研究具有重要意义。提升模型生成能力、判别能力是生成式学习中的重要目标。
本文研究目标为在无监督式学习的情况下的实例图像转换问题。首先搜集无监督式数据的训练集与测试集,针对样本自身不需要特定标签,数据集图片有较为清晰的实例目标;搭建特征条件下的生成对抗网络,针对生成器进行特征提取器添加,并设计编码器、转换器、解码器,协调各个模块之间的运作流程;设计横向对比试验,提取不同条件下的实例特征,添加至生成对抗网络训练过程中。由此完成非监督情况下的图像实例转换工作。
论文主要研究了在特征提取图片为附加输入信息的情况下,生成对抗网络的训练情况与图片生成质量情况。研究问题主要为以下内容:掩码信息图片与边缘信息图片全部完成归一化操作,其对训练情况有何影响,生成图片质量信息分析;特征图像归一化,对于生成对抗网络训练的稳定性、收敛性与图片生成质量的影响;特征直接叠加对网络训练性能与生成效的影响。
研究结果表明:在生成图像质量方面,掩码特征可以提升生成图像评分,与边缘特征相比,掩码特征实验训练效果更好。特征图像归一化后,有效地改善了未归一化训练过程中的震荡情况,并能获得更高质量的生成图片。原数据集的特征直接相叠加,并不能达到性能提升的目的。
本次研究针对生成对抗网络的特征添加工作具有借鉴意义,针对生成器训练影响因素、生成结果影响判断进行定量分析。
关键词:生成对抗网络;特征提取;FID评分
Abstract
The research goal of this thesis is to study the image translation problem in the case of unsupervised learning. The generative adversarial network and feature extraction technology have been taken to complete experiments.
The thesis mainly studies the training performance of the generative adversarial network and the generative picture quality when the additional feature is imported into the network. The mask information and the edge information were both processed by normalization operation. I did the research about the affection on the training performance, and the analysis of the generative picture quality. The feature information normalization shows better stability, convergence against the network without normalization. The last discussion is the effect of features adding on network performance。
The research results show that the mask feature can improve the evaluation score of the generated image better. Compared with the edge feature, the mask feature experimental training performance is more satisfied. After the feature images are normalized, the vibration during the unnormalized training process is effectively solved, and a higher quality generative picture can be obtained. The features of the original data set are directly superimposed, and network performance cannot be improved.
This study has reference significance for the feature addition work of the generative adversarial network, and carries out quantitative analysis on the influencing factors of generator training and the judgment of the generation result.
Key Words:generative adversarial network; feature selection; Fréchet Inception Distance
目 录
第1章 绪论 1
1.1 研究背景和意义 1
1.1.1. 生成对抗网络 1
1.1.2. 图像转换问题 1
1.2 国内外研究现状 2
1.2.1. 国外研究现状 2
1.2.2. 国内研究现状 2
1.3 研究内容和目标 2
第2章 技术概要 3
2.1 生成对抗网络基本组成 3
2.1.1. 生成器(Generator) 3
2.1.2. 判别器(Discriminator) 4
2.2 优化目标函数 4
2.3 基础算法流程 4
2.4 GAN特点总结 5
2.5 图像特征提取方法 6
2.5.1. 图像掩码特征 6
2.5.2. 实例边缘特征 6
2.5.3. 本文特征提取说明 7
第3章 特征提取生成对抗网络架构 8
3.1 生成器架构 8
3.1.1. 编码器 8
3.1.2. 转换器 9
3.1.3. 解码器 11
3.2 判别器架构 12
3.3 网络损失函数 12
第4章 实验结果分析 13
4.1 实验结果评价指标与实验配置 13
4.1.1. 生成图像量化评价指标 13
4.1.2. 生成器损失值 13
4.1.3. 实验相关配置 13
4.2 特征影响实验分析 14
4.3 特征图像归一化实验分析 15
4.4 特征叠加实验分析 16
第5章 总结与展望 18
5.1 实验成果总结 18
5.2 工作展望 18
参考文献 19
致谢 21
绪论
图像转换是计算机视觉领域与图像领域的研究问题,其研究目标是通过模型构建,学习输入图像与输出图像的映射关系。图像转换问题可以追溯至单输入输出图像转换工作,使用非参数架构的图像对比模型。近年来的研究工作中,MY Liu等人完成基于像素到像素的图像转换工作[1],取得基于像素研究的理论成果。
通过图像研究与其转换工作具有多方面的技术应用价值。针对图像分析处理后,可以提升图像质量、实现图像增强与复原;通过恰当的图像分析,可获得图像中的度量、局部数据与特征信息。这些工作为计算机视觉、计算机图像处理奠定了技术基础。
研究背景和意义
生成对抗网络
生成对抗网络GAN(Generative Adversarial Networks, GAN)是由Ian Goodfellow等人在2014年提出的一种生成模型[2],其已成为深度学习研究热点之一。虽然在生成对抗网络提出之时,其是被设计为用于非监督学习的生成模型;但随着近些年的研究,生成对抗网络在半监督式学习、监督式学习、强化学习领域中也具有优秀表现,得到众多研究者的青睐。目前,生成对抗网络在图像视觉领域中研究较深、应用较为广泛,可以生成局部示例图像,例如数字图像、人脸图像等;也可以完成图像处理工作,例如图像分割[3]、图像渲染[4]、分辨率提升[5]、基于边缘信息的图像恢复[6]等;除此之外,GAN在语音信息处理[7]、安全性防护[8]、棋类程序设计[9]中也有研究与应用。
图像转换问题
类比于自动语言翻译,语言转换的目的是通过有效的语义信息提取,完成输入语言到目标语言的表达变换,其难点在于,语言之间的映射,很少是一对一的映射关系,可能出现多对一映射、一对多映射关系。图像实例转换问题亦是如此,其在像素转换的过程中,也会存在大量多对一映射、一对多映射。在生成模型未被提出时,针对图像转换问题的解决思路是为一个任务设计独立的转换模型。该种问题解决方法,每一个模型只适用于一个或少量的转换任务,模型总体不具有较好的泛化性,不尽人意。在生成对抗网络提出后,许多研究者设计出了很多具有较好泛化性的图像转换生成模型,与传统思路相比,工作质量、工作效率得到了大幅提高。目前图像转换具有广泛的应用,例如图像风格转换[10]、图像示例替换、图像增强等。
国内外研究现状
国外研究现状
国内研究者在生成对抗网络领域中,取得许多成就。例如李纪为教授的研究,通过对抗式学习生成对话神经元[11],利用生成对抗网络与强化学习,设计对话系统,进行决策判断训练,解决生成序列的相关问题,并为生成序列进行打分;中国自动化学会举办相关会议,讨论GAN相关技术的发展趋势;VALSE(视觉与学习青年学者研讨会)的年度进展评述环节中,多位学者针对生成对抗网络在计算机视觉领域中的研究与应用,展开详细的评述报告。
国内研究现状
国外研究者已经设计出多种典型生成对抗网络算法,例如DCGAN、ProGAN、WGAN等。这些算法在许多研究领域都有应用,并出色地完成了一些预期工作。谷歌大脑研究员Augustus Odena于2019年发表文章Open questions about generative adversarial networks[12],针对GAN提出以下问题:GAN与其他生成模型之间的基础权衡是什么?GAN可以为哪一种分布进行建模?如何提升GAN在非图像数据上的性能?如何选择生成模型? GAN与对抗样本之间的关系是什么?GAN如何进行批量式训练?如何证明GAN的全局收敛性?通过以上问题,进行生成对抗网络的思想阐述与观点总结,并研讨了未来的工作方向。
对于图像转换工作,其目标是建立针对两个数据域X、Y进行关联。Rosales等人提出一个贝叶斯框架,以马尔科夫随机场[13]为基础,针对从数据集、示例项计算似然函数,获得转换结果;CoGAN与交叉模式场景网络使用权重共享模式进行学习[14]。
研究内容和目标
本文针对图像转换中的实例转换问题进行研究,设计了一种附加图像提取特征的生成对抗网络,在无监督式学习的情况下完成图像实例转换任务。本文在基础的生成对抗网络的基础上,针对三种特征提取情况进行研究:图像掩码特征、实例边缘特征、图像掩码特征与实例边缘特征叠加。针对以下三个研究内容展开实验:在生成图像质量与生成损失度方面,图像掩码特征与实例边缘特征的实验分析;在同种特征条件下,特征图像归一化对生成图像质量、生成损失度产生的影响比较实验;特征叠加后对网络性能、生成模型以及生成结果的影响实验。依据横向对比实验结果,完成问题的分析讨论,进行实验总结。
技术概要
本章针对本次实验所使用的基础技术情况进行简要概述总结,针对关键算法过程进行流程解释与算法介绍。