基于生成对抗网络的语意图像修复开题报告
2020-02-10 23:10:16
1. 研究目的与意义(文献综述)
图像修复是指对图像中被遮挡或需要删除的物体区域,进行自然、满足视觉一致性的图像数据填充。图像修复最初起源于古代人民对艺术品的手工修复,可以更好地保存艺术品的原貌。随着人工智能与数字图像技术的发展,人们开始使用计算机进行辅助修复破损图像。与此同时,数字图像修复技术也广泛应用到公安刑侦图像修复、图像缩放、生物医学等领域。图像语意修复是指对有大量缺失区域的图像进行修复,这要求我们的方法能理解图像的语意,而传统的图像修复方法往往效果不佳。本文通过实现一个生成式对抗网络(gan, generative adversarial networks),对图像数据进行训练,生成待修复区域的图像,并在公开数据集上进行测试效果,实现对任意指定图像区域的修复。
目前,数字图像修复算法主要包括三类:基于结构的图像修复技术,基于纹理相似度的图像修复技术,以及基于深度学习的图像修复技术。基于结构的图像修复技术主要基于高阶偏微分方程或变分的方法。基于高阶偏微分方程的方法通常计算量很大,同时也容易丢失图像边缘信息。与基于高阶偏微分方程的方法相比,基于变分的方法保留了图像边缘的信息。chan 和 shen 提出的全变分模型解决了普通变分方法的局部连通性问题。但基于结构的图像修复技术应用范围过于局部,该方法主要适用于小尺度缺失的图像修复。基于纹理相似度的图像修复技术主要分为两类:基于图像分解和基于纹理合成。基于图像分解的图像修复由 bertalmio 等人提出,该算法将图像分解成结构信息与纹理信息两个部分,依次进行图像修复。基于纹理合成的图像修复由 criminisi 等人提出,该算法对于图像缺失区域边界的每个像素点,全局搜索最优纹理,然后填充到缺失区域。该算法本质上是一个贪婪算法,这导致修复图像中往往包含完全重复的结构,修复后的图像看起来也不是很自然。近年来,深度学习在图像语意修复、情景感知等领域展现着令人振奋的前景。pathak等人提出的编码-解码器(context encoders),解决了填补图像中大量缺失区域的难题。
gan网络是一种深度学习模型,是近年来复杂分布上无监督学习最具前景的方法之一,于 2014 年由 goodfellow 提出。gan的思想是一种二人零和博弈思想(two-player game),生成网络希望生成的数据可以骗过判别网络,判别网络通过比较生成数据与实际数据的差异来进行优化。2017 年开始生成式对抗网络发展迅速,出现了很多 gan 的改进模型,cgan在针对gan本身不可控的缺点,加入监督信息,指导gan网络进行生成;dcgan将卷积神经网络与生成式对抗网络结合起来,使得训练更加稳定;ebgan 将能量的概念和方法引入到了gan中;wgan 使用wasserstein距离代替js散度;wgan-gp是wgan的改进版,改进了连续性限制的条件;sagan将在gan中使用self-attention,大大缩小了网络的复杂度。gan理论的迅速发展也为图像修复领域带来了新的方向,raymond等人利用感知与环境信息,进行图像语意修复;yijun li等人的generative face completion以gan为基础,从随机噪声中修复人面图像面部缺失的区域;satoshi iizuka等人利用global判别器和local判别器两种判别器保证生成的图像既符合全局语意,又尽量提高局部区域的清晰度和对比度;chao yang等人利用多尺度的神经网络合成法实现了高分辨率图像修复;由kamyarnazeri等人提出的二阶段生成对抗网络edgeconnect,结合多阶段方法和边缘先验信息,实现了高还原度的图像修复。基于gan网络的图像修复,能够自动地实现图像修复任务,同时无需人为参与,具有非常重大的研究价值和应用价值。
2. 研究的基本内容与方案
2.1 研究的基本内容
传统的图像修复算法由于缺乏高层次的上下文信息,对于有大量破损的图像修复效果不佳。本课题中,我们提出了一种基于生成式对抗网络的图像语意修复算法,实现对任意指定图像区域的修复。
2.2 研究目标
实现一个生成式对抗网络对有大量破损的图像进行图像语意修复,并在公开数据集上进行测试,使用主观评价方法与客观评价方法,证明本课题修复算法的可行性与优越性。
2.3 拟采用的技术方案及措施
生成式对抗网络(gan)包含一个生成器g与判别器d。生成器g尽量去拟合真实数据分布,生成能够欺骗判别器以假乱真的图片,它的输入参数是一个随机噪声z,z采样于先验分布 ,g(z)代表其生成的一个伪图像;判别器d判断出一张图片来源于真实数据分布 还是生成器的数据分布 ,它的输入参数是x,x代表一张图片,d(x)代表x是真实图片的概率。gan的目标函数可以描述为:
gan网络的训练过程采用交替优化的方法:先固定生成器g, 优化判别器d, 使得d的判别准确率最大化; 然后固定判别器d, 优化生成器g, 使得d的判别准确率最小化.当且仅当 时达到全局最优解,此时可以结束gan网络的训练。
为了填补大范围的缺失图像 y,我们需要找到拟合受损图像的分布 ,这样我们就能使用训练好的生成器g生成缺失区域,修复后的图像可通过以下运算获得:
其中,m为二元掩码(binary mask),运算为 hadamard product 。
为了找到,定义语境损失函数(contextual loss)与感知损失函数(perceptual loss):
3. 研究计划与安排
2018年12月,参考老师意见,结合自己的兴趣,确定论文题目。
2019年1月至2月,搜集相关文献资料,记录读书笔记,为开题做准备。
2019年3月上旬,根据任务书及搜集的资料撰写开题报告,构思提纲,制定论文撰写计划。
4. 参考文献(12篇以上)
[1] denton e l, chintala s,fergus r. deep generative image models using a laplacian pyramid of adversarialnetworks[c]//advances in neural information processing systems. 2015:1486-1494.
[2] goodfellow i, pouget-abadiej, mirza m, et al. generative adversarial nets[c]//advances in neuralinformation processing systems. 2014: 2672-2680.
[3] iizuka s, simo-serra e,ishikawa h. globally and locally consistent image completion[j]. acmtransactions on graphics (tog), 2017, 36(4): 107.
您可能感兴趣的文章
- UI 和 UE 设计技术及其在 HTML5 网站开发中的地位的研究外文翻译资料
- .NET MVC框架在开发农业资源清单系统中的适应性外文翻译资料
- 使用Java平台针对数据库桥接层的Spring框架可靠性调查外文翻译资料
- 基于MVC架构的数据库和Web应用程序外文翻译资料
- 利用微服务SpringBoot 设计和开发公众投诉系统的后端应用。外文翻译资料
- 基于SSM框架的校园自行车租赁管理系统统计外文翻译资料
- 基于Android的校园交友社交应用的设计与开发外文翻译资料
- 基于Android的在线社交系统服务端的设计与实现外文翻译资料
- 基于Spring-boot微服务框架的学生成绩分析系统的设计与实现外文翻译资料
- 用于生成计算材料科学文献中使用的方法和参数的数据库的自动化工具外文翻译资料