基于像素预测的无监督特征学习方法开题报告
2022-01-14 20:31:41
全文总字数:2986字
1. 研究目的与意义及国内外研究现状
我们的视觉世界是非常多样的,但高度结构化的,人类有一种不可思议的能力来理解这种结构。在这项工作中,我们探讨了最先进的计算机视觉算法是否也能做到这一点。这种能力来源于这样一个事实:尽管自然图像的多样性,但其结构却很高(例如,立面窗户的规则图案)。我们人类能够理解这种结构并做出视觉预测,即使只看到部分场景。 本毕业设计将基于用于图像生成的上下文编码器模型[1],采用损失函数理论,分析研究关于图像修复的无监督[2,3]学习,研究得到的结果可以广泛用于解决自然图像的理解和生成等问题。 |
国内外研究现状
自20世纪20年代至今,数字图像处理技术在其短暂的历史中已成功应用于几乎所有与成像相关的领域。数字图像处理最初是将图像变换为另一变换图像或从图像中提取度量的过程。它现在已发展到从数字图像编码,压缩,传输,降噪到再现的所有过程。计算机视觉是基于图像处理开发的跨学科学科。研究视觉信息处理的计算理论,表达和计算方法,通过分析一个或多个二维图像,从而预测三维环境的几何信息。在过去几年中,深度卷积神经网络[4,5,6]凭借其首屈一指的学习高级语义图像特征的能力,改变了计算机视觉领域。然而,要想成功地学习这些特征,它们通常需要大量手动标记的数据,这在现实中由于成本昂贵且不切实际而难以实现。因此,无监督的语义特征学习,即无需手动注释工作的学习,对于今天成功获取大量可用视觉数据是至关重要的。
目前有两种主要类型的图像恢复技术:一种是用于修复小规模缺陷的数字图像镶嵌技术。该技术使用待修复区域的边缘信息,并使用由粗到细的方法来估计等照度线的方向。并利用传播机制将信息传播到待修复的区域,以获得更好的修复效果。另一种类型是用于在图像中填充大量缺失信息的图像完成技术。目前,这种技术还包括以下两种方法:一种是基于图像分解修复技术[7,8,9],主要思想是将图像分解为结构部分和纹理[10,11]部分,其中结构部分通过修复算法修复,纹理部分由纹理合成的方法填充;另一种方法是使用基于块的纹理合成技术来填充缺失的信息。首先,从需要修复的区域的边界中选择一个像素,同时使该点居中,并根据图像的纹理特征选择适当大小的纹理块。然后用最接近它的纹理匹配块替换纹理块,以便在要修复的区域周围进行修复。近年来,相关科研人员已经对使用纹理合成修复大块缺失信息的图像完成技术进行了很好的研究,并取得了一些成果。
2. 研究的基本内容
我们提出了一种基于上下文的像素预测驱动的无监督视觉特征学习算法。通过与自动编码器的类比,我们提出了上下文编码器——一种经过训练的卷积神经网络,用于生成任意图像区域的内容,该图像区域受环境的约束。为了成功完成这项任务,上下文编码器需要既了解整个图像的内容,又为缺失的部分生成一个合理的假设。在训练上下文编码器时,我们已经尝试了标准像素级重建损失,以及重建加上对抗性损失。后者产生了更尖锐的结果,因为它可以更好地处理输出中的多种模式。我们发现,上下文编码器学习的表示不仅捕获外观,还捕获视觉结构的语义。我们定量地证明了我们学习的特征对于CNN分类、检测和分割任务的预培训的有效性。此外,上下文编码器可以用于语义输入任务,可以是独立的,也可以作为非参数方法的初始化。
3. 实施方案、进度安排及预期效果
实施方案:我们训练卷积神经网络回归到缺失像素值。我们称之为模型上下文编码器,它由一个编码器将图像的上下文捕获为紧凑的潜在特征表示和一个解码器组成,解码器使用该表示生成缺少的图像内容。自动编码器获取一个输入图像,并尝试在它通过低维后重建它,填充图像的大的缺失区域。去噪自动编码器通过损坏输入图像并要求网络撤销损坏来解决这个问题。
-
建立用于图像生成的上下文编码器模型。
-
在python中编程仿真验证。
剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!4. 参考文献
[1] g. e. hintonand r. r. salakhutdinov. reducing the dimensionality of data with neuralnetworks. science, 2006.
[2]岳永鹏. 深度无监督学习算法研究[d].西南石油大学,2015.
[3]殷瑞刚,魏帅,李晗,于洪.深度学习中的无监督学习方法综述[j].计算机系统应用,2016,25(08):1-7.
剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付