基于深度学习的行人检测方法研究文献综述
2020-04-24 09:59:05
近年来,随着人工智能技术的迅速发展,传统汽车行业与信息技术结合,在汽车自动驾驶技术方面的研究取得了长足进步,业内巨头在此领域投入巨资进行研发。国外的谷歌、丰田,国内的百度、比亚迪等公司都相继推出了自动驾驶汽车。可以预见,在不远的将来,随着技术不断发展完善,自动驾驶技术将进入实用阶段,普及到千家万户。在自动驾驶的技术领域中,目标检测(Object Detection)是核心任务之一,主要包括车道线检测、行人检测、车辆检测等。其中,以行人保护为目的的行人检测及防碰撞系统成为自动驾驶领域的研究热点。随着Alex提出的AlexNet[16]卷积神经网络(Convolutional Neural Network,CNN[1])赢得2012届ImageNet[17]图像识别大赛的冠军,CNN开始在目标检测、图像分类等一系列计算机视觉任务中崭露头角,并迅速成为主流。目前,利用CNN进行行人检测的方法主要分为两类:
1、采用某个通用的目标检测框架,并将该框架迁移至行人检测任务上。具体来说,某个通用的目标检测框架可以是Fast R-CNN[3], Faster R-CNN[4], YOLO[18], SSD[15]等。龚安等人[8]中提出采用SSD检测框架,并且考虑行人检测任务的特殊性,设计多候选框行人检测模板,在候选区域推荐上做了一定改进;El-Khamy M等人[9]提出Fused-DNN, 在目标检测阶段同样采用SSD的检测框架,但在分类阶段将多个CNN融合并行进行判断,在小型、遮挡的行人检测上更具优势。Zhu Y等人[20] 提出尺度自适应的检测网络,一方面对行人区域进行回归,另一方面将后几个卷积层的特征融合进行分类,在KITTI[21]数据集上取得了较为优越的效果。然而,该类框架更为偏向于在2D图像上进行,无法对驾驶视野内的行人深度信息进行估计,对自动驾驶车辆的帮助较为有限;
2、基于获取的场景立体信息(如利用双目视觉或者激光雷达),在这类数据上开展行人检测。该类方法更偏向于实际路况,而带来的挑战也更大。如金志刚等人[10]基于双目视点图像,采用聚合积分通道完成数据建模与行人检测,在实现较高检测精度的同时有效提高了检测速度;X. Chen 等人[12]提出将雷达点云与单目视觉融合,以多个视角的数据来训练神经网络,进行目标的3D bounding-box提取,实现了极高的精度。Xu D等人[19] 提出交叉RGB图像与深度图像(Depth Map)训练的深度网络,先训练基于2D平面图像重建3D场景的RRN网络,再将其迁移至2D平面的行人检测任务上,其在Caltech[22]行人检测数据集上取得了较好的成绩。
在自动驾驶任务下的行人检测系统应具有实时性、高精度的特征,而双目立体视觉[23] 具有效率高、精度合适、系统结构简单、成本低等优点,将其作为行人检测的传感器是高效而廉价的方案。目前,基于双目视觉生成的RGB-D图像上的目标检测已经有了一些研究,Girshick R[24] 等人基于RGB图像与Depth Map来检测物体的轮廓,生成2.5D的推荐区域,再采用CNN进行分类,完成目标检测。Lee H H [30] 等人提出利用RGB-D图像生成深度加权距离图来预测行人区域,再进行区域回归与分类。这些研究侧重于使用RGB-D图像来生成一个中间表达图像,而后再采用中间表达来进行行人检测,这样会使得算法速度有所降低,而取得的效果相较2D图像中的行人检测也无较多的突破。因此,本文研究一种在流行2D目标检测框架上改进的3D行人检测深度网络,其具有两个入口,能够直接接收RGB-D图像,最后输出行人的3D bounding-box。
{title}2. 研究的基本内容与方案
{title}1. 基本内容
(1) 熟悉目前行人检测的主要思想以及方法;
(2) 学习深度神经网络的主流工程框架;
(3) 基于自动驾驶场景中的行人检测任务对已有的目标检测方法进行改进与创新。
2. 技术方案
对于自动驾驶任务下的行人检测任务,重要的是获取行人在车辆视野中的位置以及离车辆的距离。为了兼顾速度与精度,采用双目视觉方案来获取车辆视野下的深度图与2D下的RGB图像,并送入深度神经网络进行预测。系统将提供给车辆以行人的位置信息和距离信息,并生成3D bounding-box。