基于机器视觉的物体识别系统文献综述
2020-06-08 21:19:18
一、课题研究背景及意义
1.1 基于机器视觉的研究背景
科技的发展和进步带来了数据量的激增[1]。一方而图像、视频等资源呈爆炸式增长,给人类生活带来了极大的便利。另一方而,这种增长也给信息处理带来了新问题,那就是信息冗余。对于任何信息处理设备,如果不依靠有效的方法去除视觉数据巾的冗余部分,是难以达到实时处理数据的效架的。模仿人类高层次认知以及处理复杂信息的过程,如目标识别,图像分类,场景分析等,都依赖于大量数据的处理一与学习。如何通过预处理提取数据的最有效部分,去除冗余部分,从而使整个任务变得更高效,是一个值得研究的问题。
人类感知系统具有独特的特性。人类观察一幅图像或一段视频时,会对最主要的信息量大的区域产生注意力,并进一步对其进行分析处理。从生物学角度上讲,注意力是通过视网膜中的两个部分共同作用产生的,那就是具有高分辨力的巾央凹以及分辨力低的外围。基于这种生理结构的视觉注意力可以指导人类区分场景中的重要部分以及进一步发现细节信息。因此,研究者们希望智能系统(计算机)也能够参照人类处理视觉信息的原理,仿照这种高效的方法对海量数据进行处理,尽量消除或降低信息冗余,从而能够抓住要点,方便后续处理任务的进行。
1.2 基于机器视觉的研究意义
在计算机视觉领域,一与视觉注意力相一致的研究课题就是视觉显著度的计算[2]。为了能让计算机模仿人的视觉注意机制对图像进行处理,需要建立一个有效的能在一计算机上实现的数学模型。然而,视觉的显著度是视觉输入信号的一个难以准确定义的特征属性。信号的颜色、纹理、深度丶位置等属性,都是特征意义明显的,对区域的显著度有独立或者祸合的贡献。从直观角度上看,显著度高的区域是指场景中一些与其邻域和全局对比度高的区域。这种强烈的对比度使得视觉系统能够直接对突出的物体区域产生视觉注意力。排除心理层而和主体自身的记忆、期望等因素,通常情况下,人类对对比度高的,或者具有语义含义的物体或区域更容易产生视觉注意力。通用的显著度计算模型都是丛于特征对比度的计算和先验知识的利用,主要分为适用于场景驱动的自底向上的模刑以及丛于任务驱动的自顶至下的模型。
二、国内外发展现状
在过去的十年中,用于图像识别的标准数据库的公开促进图像识别的飞速发展。一些基于深度学习的无监督学习算法相继被提出,其中较有代表性的有DBN[3]、去噪自编码[4]、深度玻尔兹曼机、卷积深度信念网络、K均值聚类特征学习算法和分层匹配追踪算法等。这些算法逐层的提取特征,并且被广泛应用于于写数字识别、人脸识别、小图州识别、物体识别、事件识别和场景识别等任务中[15],而且都取得良好的效果。然而,当前这些应用基本都鉴于RGB图像和灰度图。
美国华盛顿大学的Kevin Lai、LieFeng Bo、Dieler Fox以及因特尔西雅图实验室的XiaoFeng Ren等对RGB-D图像有着深入研究[5 6 7],并建立厂一个多分类、多层次、多角度的RGB-D数据库。在过去的几年中,许多基干RGB-D的物体识别深度学习算法被提出。Blum[8]等人提出了卷积K均值描述符。在兴趣点附近自动的学习特征并最终将这些特征进行融合。LieFeng Bo等人提出了HMP,此算法利用洗漱编码和空间金字塔最大池化算法无监督的从原始RGB-D图像中学习分层的特征。Socher等人结合卷积神经网络和递归神经网络提出了CNN-RNN深度学习方法。Jiang[9] 等人将显著物体检测归纳成一个吸收马尔科夫链问题。图像中的超像素被分为位于图像中心的瞬态节点和位于边界的吸收节点。每一个超像素的显著值被定义为马尔科夫链上该瞬态节点被吸收节点吸收所需的时间。Liu[10]提出了一种基于偏微分方程学习的显著物体检测方法。其主要思想是先划分出凸包,确定大致的前景和背景区域。然后有效选取种子点,并对每一幅图像学习出其独有的偏微分方程参数,将种子点的显著值扩散到所有其他节点上去。Cheng[13]等人提出了一种基于区域全局对比度的显著性计算方法。该方法首先将图像进行过分割得到若干区域然后利用颜色距离和空间距离的加权来计算区域的显著性。Xie[14]等人提出了一种基于贝叶斯框架的显著度检测模型。首先,对输入图像进行角点检测并连接形成凸包。该方法认为显著类中的所有超像素均为显著目标。以显著类为基准计算颜色和空间距离得到基于聚类的先验图。对得到的凸包内外统计观测似然概率,从而计算每个像素点属于目标以及背景的观测似然概率。最后,使用贝叶斯框架将先验图与观测似然概率结合得到最终的检测结果。
三、难点及方法综述