基于Tensorflow的Faster R-CNN目标检测算法设计文献综述
2020-04-14 17:13:56
1.1 研究目的及意义
视觉是人类最重要的感知系统,是人类获取信息最重要的渠道。在当前信息化时代的背景之下,计算机如何辅助人类完成视觉任务,解决人类在进行场景内目标信息的采集和处理任务时的不足,是人类一直探索的方向,计算机视觉也因此成为当今社会的研究热点。
目标检测作为计算机视觉领域的核心问题之一,学术界已有将近二十年的研究历史,其主要任务是找出图像或视频序列中感兴趣的物体,确定其类别、位置和边框范围。目标检测的实现综合运用了图像处理、机器学习、深度学习和人工智能等技术,有广泛的应用前景。
目标检测在农业领域可应用于农作物表面病虫害识别;在医学领域,实现医学影像如MRI的肿瘤等病变部位检测和识别,辅助医生确诊患者疾病,提供优质的治疗;在交通领域,自动监测行人和车辆在交通中的违规行为,能够很大程度上减少人工交通管理的成本,在自动驾驶的研究中也得到了极大的应用;在公共场所,通过对道路和行人进行监测,有效改善银行、火车站等公共场所的安全质量,并及时采取措施应对突发状况,有助于形成更好的安全监管系统;在人机交互领域,对人的手势、表情、动作进行检测,以提高控制机器的便捷性。然而,亮度、形态、颜色、遮挡等方面的多变因素以及纷繁复杂的环境因素干扰,使得目标检测算法的研究机遇与挑战并存。如何加快检测目标速度、减小背景变化造成的干扰、提高目标定位的准确度,是当前目标检测所面对的主要问题,也使得目标检测成为计算机视觉领域最具挑战性的问题。
随着大数据时代的来临,深度学习取得了突破性进展,深度学习在计算机视觉的许多问题,如图像识别、人脸识别、目标检测领域都取得了巨大成功,并逐渐成为机器视觉领域的主流方法。与传统的目标检测算法相比,深度学习算法具有更好的表达能力、更高的准确性、更快的检测速度。深度神经网络受大脑结构的启发,信息不仅在层层网络中向前传播,还根据结果反馈回浅层网络,据此进行相应的调整和改进。深度学习强大特征提取能力,能够将原始输入数据的低层次特征抽象为高层次特征,有助于我们进行目标识别和检测。同时,深度学习尤其是深度卷积网络采用了局部感受野、池化等方法,具有了一定的平移、缩放、扭曲的不变性,使得算法模型更具鲁棒性。
本文将展开基于深度学习的目标检测算法的研究,研究的具体算法为Faster R-CNN(Faster Region-Based Convolutional Neural Networks)算法,该算法在目标检测领域中检测效果出众,是目前应用最为广泛的基于深度学习的目标检测算法之一。在当前大数据、深度学习的时代背景下,该课题不仅具有十足的可行性,也具有非常积极的理论研究意义。同时,在目标检测在各个领域广泛而深入的应用背景下,该课题也同样具有重要的现实意义和工程应用价值。
1.2 国内外研究现状
针对目标检测中出现的背景多变,以及待测目标形状、大小各异等难点,国内外学者进行了多年研究,并取得了极大的进步,诞生了许多优秀算法。当前目标检测算法主要分为两种,一种是基于传统手工特征及浅层分类器的目标检测算法,一种是基于卷积神经网络的目标检测算法。
1.2.1传统目标检测算法
传统的目标检测算法可以分为两类,一类是基于滑动窗模型的检测,另一类是基于候选框模型的检测。Felzenszwalb等人提出的基于混合多尺度可变形部件模型(Deformable Parts Model,DPM)利用滑动窗提取特征,这种类似于简单的穷举的方法,计算速度慢且对于旋转、拉伸、视角变化的物体检测效果差。另一类是基于候选框模型的目标检测算法,其基本思想是在进行图像特征提取之前,首先找到可能包含目标的候选区域,最后将这些特征作为分类器的输入进行分类。候选框模型在很大程度上降低了滑动窗模型的窗口数量,减少了特征提取过程的计算量,极大提高了目标检测的速度。主要的候选框模型包括边界框模型(Edge Boxes,EB)、选择性搜索模型(Selective Search,SS)和多尺度组合分组模型(Multiscale Combinatorial Grouping,MCG)等。