基于深度学习的自动驾驶行人检测方法研究文献综述
2020-04-14 22:12:01
1.1设计目的及意义
随着全球科学水平的飞跃式发展,有关研究都开始相继取得重大突破,其中人工智能无疑是近些年来一个最为火热的概念及未来很长时间内人们关注的焦点,而计算机视觉就是其研究领域中一个重要的分支方向[1-2]。基于军事、安全、交通、商业和医疗等多方面的需求,目标检测及识别已经成为了计算机视觉现阶段应用较为广泛的部分[3]。简单来说,目标检测及识别就是一种基于图像分割的统计特征和统计几何,将目标的分割和识别合二为一的功能,准确性和实效性是衡量一个目标检测与识别系统的重要指标。但是在实际场景应用时,目标检测和识别的结果往往会受到光照、背景、形态和遮挡等因素的影响。
传统的行人检测通常使用基于传统图像处理方法,即提取人工设计特征。具体到交通领域,行人检测就是尤为重要的一项关键技术。人工设计特征主要用来进行目标识别与定位,例如SIFT(尺度不变特征转换)、SURF(加速稳健特征)和HOG(方向梯度直方图)等[4]。传统方法的本质就是通过算法获取图像中与既定特征相关的信息,然后根据提取到的人工特征训练分类器,最后再结合相应的策略对图像中的目标进行定位。但是,不同的人工特征都存在着各自的缺陷例如:特征描述、错配问题和局部遮挡。
与此同时机器学习开始慢慢进入大众的视野,深度学习在目标检测研究中的比例越来越高。目前人工智能领域是深度学习的主要应用场合,其包括语音识别、目标检测和文本理解等用途[5]。CNN(卷积神经网络)更是将深度学习与卷积运算相结合,大幅降低了网络复杂度、错误率和漏检率,同时还具有较良好的鲁棒性,在各类目标检测与识别中都获得了理想的结果[6-7]。因此,深度学习开始逐渐取代传统人工特征方法称为行人检测的首选。
行人检测在生活中应用广泛,近些年已经有了一定的技术积累,在CVPR 2015会议中,在Caltech数据集上漏检率的最好成绩为18.5%,然而在ECCV 2016会议中,针对同样的数据集,漏检率已经下降至9.6%。 然而,尽管基于深度学习的行人检测模型已经超过了早期的传统人工特征方法,但是仍存在许多需要改善的地方,比如运算成本、标签标注和区域划定等问题,所以对于行人检测深度学习算法的深入研究在学术和工程领域中都有着重大价值。
1.2国内外研究现状
行人检测是目标检测最基本的任务,现在计算机视觉的权威会议如CVPR,ECCV, PAMI,ICCV都有许多关于行人检测方面的文章[8]。2003年,Viola和Jones在行人检测中使用VJ检测器[9]。VJ检测器最早用在人脸检测上,其在提取特征时利用了积分图。2005年Dalal和Triggs介绍了HOG检测器,HOG主要思想是图片上目标的边缘梯度变化非常明显,通过利用梯度信息来构建特征[10]。由于其出色的表现,随后HOG及其变形方法大量运用在行人检测上面。2008年Felzenswalb等人提出了DPM方法,DPM在特征提取阶段使用了HOG特征,分类器用到了改进型的SVM,所以DPM可以简单看做HOG SVM。2009年行人检测标准出现了,同时评估方法从以前的FPPW转换成FPP。行人检测标准以及一系列数据集的出现加速了行人检测的发展。
韩田甜等人根据行人的特点,提出一种改进的HOG LBP行人检测方法,该方法首先对HOG特征进行统计,然后平均化,最后结合最优特征组合以及巴氏距离挑选出最优特征[11]。2011年,Wu等人提出CENTRIST描述子。该方法的原理是相邻像素的差值能够有效描述目标轮廓的关键信息,并且用CENTRIST获取到的特征能够刻画场景的全局信息[12]。王斌在2015年针对深度学习行人检测提出了多策略融合窗口代替常见的滑动窗口[1]。
近些年,行人检测技术开始使用Faster R-CNN的通用检测框架。在ECCV2016中,CNN的使用让行人检测漏检率降低到了9.6%,中山大学林惊教授课题组使用RPN提取proposal,同时使用卷积网络提取特征,然后使用Boostingtrees进行二次分类,性能得到了很大的提升[13]。张姗姗等人在CVPR2016中使用ICF提取proposal,然后使用CNN进行重新打分来提高检测的性能[14]。颜教授课题组提供了一种解决多尺度问题的方法比:训练两个网络,一个网络关注大尺度的人,另一个网络关注小尺度的人,在检测时将两个网络进行加权融合得到最终的结果[15]。
在CVPR2017中,来自清华北大的茅佳源和肖特特等人对行人检测的extrafeatures做了诸多分析,并且提出了HyperLearner行人检测框架,在KITTIamp; Caltech amp; Cityscapes数据集上实现了极为优秀的性能[16]。在2018年ECCV和CVPR上很多学者对遮挡问题进行了研究,周教授等人提出通过回归两个boundingboxes分别定位全身和行人的可见部分[17];ZhangShifeng等人分别从loss和two stage detector中核心的ROIPooling操作这两个角度出发改善遮挡物体的检测问题[18];旷视科技Face 则提出了一种全新的人群检测定位模型Repulsion Loss[19]。