融合多层次注意力机制的图像理解技术研究文献综述

2020-04-14 17:23:11

1．目的及意义

1.1研究目的及意义

随着信息技术的快速发展，日常生活中图像所包含的信息也日益膨胀，因而计算机如何提取理解图像中丰富的信息就成为了计算机视觉和深度学习领域中一个重点。由于图像中所含信息量较大，且缺乏上下文的约束，因此很难筛选出所需要的信息。同一般的视觉要素所不同的是，文字所包含的信息可以使人更加快速得理解图像表达的含义，属于一种高层视觉因素。使用文字描述在计算机视觉的许多领域如手写字识别，车牌识别等都有着广泛的应用。能够利用句子快速而精准地描述一张图片是一项具有挑战性的工作，但是它会在一些领域产生较大的影响，如帮助视觉障碍的人士理解网络图像，对图像进行精准地检索等。随着深度神经网络技术的发展，图像描述也逐渐吸引了人们的兴趣。

从图像信息转变为文字信息给计算机视觉提出了一个特殊的问题，这需要将计算机视觉与自然语言处理相联系。该问题类似于语言之间的机器翻译，但是由于图像信息量与文字信息量之间悬殊巨大，研究人员必须要考虑到如何抓住图像中关键信息。因此如今一个研究的热点就是将人类视觉的注意力机制引入图像分析领域。从认知科学的角度来看，人们在看向物体时会选择性地关注有效信息，将处理信息的有限资源非给最值得注意的部分。这样可以使我们在图像低解析的背景下更加关注“焦点”内容，从而快速推断整张图片的内容。注意力机制可以决定图片中哪一部分更加值得关注，并能够从关键部分进行特征提取，获得有效信息。在计算机视觉领域中，注意力机制是一种具有选择性处理图像信息的机制，而图像理解是一门自然语言和卷积神经网络的交叉性学科，可以实现实时字幕的形成，场景理解等功能。在利用卷积神经网络对图像进行特征提取之后，在循环神经网络中生成局域描述性的语句，若将其中加入注意力机制，则可以提高模型整体的准确率。同时为了使用完整的句子表示，必须表达出图片中的对象如何相互关联，它们的属性以及涉及的活动，因此除了视觉理解之外，自然语言模型也必不可少。

对于机器学习算法来说，模仿人类将大量的视觉信息压缩成为描述性语言的能力是一个很大的挑战。但是将自然语言描述，视觉注意，图像理解结合在一起，无论对于计算机视觉领域还是心理学等领域都有较大的研究意义。

1.2国内外研究现状

近年来，深度学习领域的发展十分迅速，基于注意力机制的神经网络也成为了研究的一个热点，无论是在图像理解，语音识别或是自然语言处理等方面都有了广泛的应用。图像处理与图像识别的最终目的都在于对处理后的图像做描述和解释，以便理解它是什么图像。因此，图像理解是在图像处理及图像识别的基础上，根据分类结果做图像句法分析，描述和解释图像。^[1]

注意力机制很早就已经存在，但是第一次被应用于深度学习中是计算机视觉领域。在国外的研究工作中，2014年，Google Mind团队论文^[2]使注意力机制开始引起了人们的注意，该论文提出在RNN模型上使用注意力机制对图像进行分类，这是一篇代表性文章，提出了将注意力机制加入RNN模型之中，使得处理的像素更少，减少了任务的复杂度。同时，Image Caption领域也在不断发展，在Xu等人论文^[3]中，成功的将注意力机制应用在Image Caption领域，给RNN加上了注意力结构。从此，注意力机制就被广泛应用在基于RNN神经网络模型的各种深度学习任务中。Wu等人论文^[4]，除了使用注意力机制改善了Encoder-Decoder结构之外，又提供了另一种改进原始模型的方式，即使用高级语义特征。在实际做法中，对原先的CNN结构做出适当的调整，在通常一对一的关系中，一般在卷积特征之后使用一个softmax，而在一对多的关系中，找出c类物体，就分别使用c个softmax层，改善了CNN提取的特征。AndrejKarpathy与Li的论文^[4]中找出了每张训练图片与其对应的标注的对应的关系，把粒度做的更细，有利于生成多样化描述的语句。Oriol Vinyals等的论文^[5]中将encoder RNN替换为一个深度CNN，并使用了注意力机制，结合了用于视觉和语言模型的的子网络，提出了一个神经和概率的框架用于图片描述。Chen等论文^[6]在现有的一些Image Caption方法主要考虑spatial属性的情况下，充分利用了CNN的spatially,attentive,weight的属性来进行任务，提出利用spatial、channel-wise和multi-layer结合的属性进行注意力机制的应用，取名SCA-CNN，多种有效手段的集合可以获得较好的效果，但是增加注意力机制的层数后易发生过耦合。我们可以看到，随着国外各种研究人员的努力与创新，注意力机制已经在图像描述方面的应用取得了一定成功。

国内的论文多是通过视觉注意力机制进行图像检索或者是图像的显著区域提取，对于利用深度学习进行图像描述时，也很少将循环神经网络中加入注意力机制。因此由最近几年国内外的论文可以发现，将注意力机制应用到图像理解方面是一个较新且是发展迅速的技术，在实际生活中也有比较广泛的应用。与此同时，因为有国外一些技术基础作为支撑，该问题的研究是比较有意义且可行的。

{title}

2. 研究的基本内容与方案

{title}

2.1研究（设计）的基本内容、目标

本设计主要是利用多层次的注意力机制，来进行图像理解技术的研究。设计首先采用了卷积神经网络对图像进行特征提取，然后用循环神经网络生成具有描述性的语句，并在循环神经网络中加入注意力机制来提高模型整体的准确率。采用Python进行模型搭建仿真，并比较加入注意力机制后在BLEU以及Cider等评估矩阵上的提升。最终的实现目标为：通过模型可以较为准确地描述测试的图像，不仅可以理解每个对象，还需要可以与自然短语之间相互匹配，从而实现匹配人类的描述，获取较高的准确度。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码