基于Tensorflow的Faster R-CNN目标检测算法设计文献综述

2020-04-14 17:13:56

1．目的及意义

1.1 研究目的及意义

视觉是人类最重要的感知系统，是人类获取信息最重要的渠道。在当前信息化时代的背景之下，计算机如何辅助人类完成视觉任务，解决人类在进行场景内目标信息的采集和处理任务时的不足，是人类一直探索的方向，计算机视觉也因此成为当今社会的研究热点。

目标检测作为计算机视觉领域的核心问题之一，学术界已有将近二十年的研究历史，其主要任务是找出图像或视频序列中感兴趣的物体，确定其类别、位置和边框范围。目标检测的实现综合运用了图像处理、机器学习、深度学习和人工智能等技术，有广泛的应用前景。

目标检测在农业领域可应用于农作物表面病虫害识别；在医学领域，实现医学影像如MRI的肿瘤等病变部位检测和识别，辅助医生确诊患者疾病，提供优质的治疗；在交通领域，自动监测行人和车辆在交通中的违规行为，能够很大程度上减少人工交通管理的成本，在自动驾驶的研究中也得到了极大的应用；在公共场所，通过对道路和行人进行监测，有效改善银行、火车站等公共场所的安全质量，并及时采取措施应对突发状况，有助于形成更好的安全监管系统；在人机交互领域，对人的手势、表情、动作进行检测，以提高控制机器的便捷性。然而，亮度、形态、颜色、遮挡等方面的多变因素以及纷繁复杂的环境因素干扰，使得目标检测算法的研究机遇与挑战并存。如何加快检测目标速度、减小背景变化造成的干扰、提高目标定位的准确度，是当前目标检测所面对的主要问题，也使得目标检测成为计算机视觉领域最具挑战性的问题。

随着大数据时代的来临，深度学习取得了突破性进展，深度学习在计算机视觉的许多问题，如图像识别、人脸识别、目标检测领域都取得了巨大成功，并逐渐成为机器视觉领域的主流方法。与传统的目标检测算法相比，深度学习算法具有更好的表达能力、更高的准确性、更快的检测速度。深度神经网络受大脑结构的启发，信息不仅在层层网络中向前传播，还根据结果反馈回浅层网络，据此进行相应的调整和改进。深度学习强大特征提取能力，能够将原始输入数据的低层次特征抽象为高层次特征，有助于我们进行目标识别和检测。同时，深度学习尤其是深度卷积网络采用了局部感受野、池化等方法，具有了一定的平移、缩放、扭曲的不变性，使得算法模型更具鲁棒性。

本文将展开基于深度学习的目标检测算法的研究，研究的具体算法为Faster R-CNN(Faster Region-Based Convolutional Neural Networks)算法，该算法在目标检测领域中检测效果出众，是目前应用最为广泛的基于深度学习的目标检测算法之一。在当前大数据、深度学习的时代背景下，该课题不仅具有十足的可行性，也具有非常积极的理论研究意义。同时，在目标检测在各个领域广泛而深入的应用背景下，该课题也同样具有重要的现实意义和工程应用价值。

1.2 国内外研究现状

针对目标检测中出现的背景多变，以及待测目标形状、大小各异等难点，国内外学者进行了多年研究，并取得了极大的进步，诞生了许多优秀算法。当前目标检测算法主要分为两种，一种是基于传统手工特征及浅层分类器的目标检测算法，一种是基于卷积神经网络的目标检测算法。

1.2.1传统目标检测算法

传统的目标检测算法可以分为两类，一类是基于滑动窗模型的检测，另一类是基于候选框模型的检测。Felzenszwalb等人提出的基于混合多尺度可变形部件模型(Deformable Parts Model,DPM）利用滑动窗提取特征，这种类似于简单的穷举的方法，计算速度慢且对于旋转、拉伸、视角变化的物体检测效果差。另一类是基于候选框模型的目标检测算法，其基本思想是在进行图像特征提取之前，首先找到可能包含目标的候选区域，最后将这些特征作为分类器的输入进行分类。候选框模型在很大程度上降低了滑动窗模型的窗口数量，减少了特征提取过程的计算量，极大提高了目标检测的速度。主要的候选框模型包括边界框模型（Edge Boxes,EB）、选择性搜索模型（Selective Search,SS）和多尺度组合分组模型（Multiscale Combinatorial Grouping,MCG）等。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码