基于卷积神经网络的多目标图像检测研究文献综述

2020-04-15 09:39:07

1．目的及意义

目前，人工智能时代已经到来，作为走向人工智能之路的重要工具——深度学习已经走进了人们的视野之中。目前，在我们的生活中，其实随处可见深度学习的身影。它采用多层次的、模拟人脑的网络结构，能够更好的提取特征，并且几乎不用人工的干预，自主学习，“认识”所学习的物体，打破了传统的以来人工提取某种特征的方式，在算法效果上得到了极大的提升。

卷积神经网络是深度学习中众多的网络结构中的一种。卷积神经网络可以像人类一样直接读取二维图像，结构上也更类似于人类的视觉神经系统，因而具有强大的特征提取能力，在目标识别、检测的效果上远超传统方法。

国内外许多团队在开展多目标检测的研究与目标识别的相关研究，目前仍然面临着许多严峻的挑战。真实的三维世界在向二维世界中投影的过程中，信息必然会有所损失，并且图像中的噪声影响、待检测目标复杂的运动模式、目标的部分或被严重遮挡、场景光照条件的改变、应用的速度与准确性要求等都增加了目标检测的难度。

目前，目标检测在传统的计算机视觉研究中心被分为实例目标检测和类别目标检测。

目标检测是指：根据目标实例的表现特征判别性对目标进行识别。真实世界中许多人造物纹理特征较少，如塑料、玻璃等。对于这类物体，视觉特征无法被稳定的提取，所以对于这类物体的识别和检测，主要依靠目标的轮廓和形状。对于纹理特征明显的物体，则可以对其纹理作为视觉特征，提取稳定丰富的特征描述子。目前主流的有以下几种方法：Scale Invariant Feature Transform（SIFT），PCA-SIFT,Speed Up Robust Features（SURF）。

目标类别检测是指：对于特定类别的目标，检测其存在性或位置。基于Adaboost框架，Viola使用Haar-like小波特征分类，然后采用滑动窗口搜索策略实现准确有效地定位。滑窗的思想在后续的目标检测研究中被广泛使用。Dalal提出使用HOG算子作为特征，利用支持向量机SVM作为分类器进行行人检测。之后Felzenszwalb提出了目标类别检测最具有影响力的检测方法之一：多尺度形变部件模型Deformable Parts Model（DPM）.DPM继承了使用HOG特征和SVM分类器的优点，由一个根滤波器和一些部件滤波器组成，组件之间的形变通过隐变量进行推理。Ren使用基于系数表达学习理论的稀疏编码直方图特征HSC代替DPM中的HOG特征，检测率有所提升。

2012年前，目标检测中分类任务的框架就是使用人为设计的特征训练浅层分类器完成分类任务，最佳算法是基于DPM框架的各种改进算法。2012年后深度学习，尤其是深度卷积网络Deep Convolutional Neural Network（DCNN）开始成为目标检测领域的研究热点。

近年来，NVIDIA公司所开发的CUDA及CUDNN运行套件，极大的加速了矩阵的计算速度。在GPU计算的帮助下，深度神经网络发展迅速。

于2015年，YOLO算法被提出。YOLO算法的主要创新之处在于，其摒弃了原始的区域选择过程，从而暴力的将输入图片按一定比例划分出正方的方格，然后对于每个方格穿绳大小不同的边界框，并进行回归，这样做的好处在可以极大加速检测过程，在NVIDIA TITAN X上可以达到45dps的处理速度。但是缺点也很明显，就是对于重叠的物体或小物体，检测能力较弱。

对于目标检测算法的性能对于见图1-1,。可见YOLO算法和Faster R-CNN算法，在实现多目标图像检测任务上具有较高的跟进价值和可行性。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码