利用多维度Faster-RCNN方法实现驾驶人的手机使用以及在方向盘上的手的识别外文翻译资料
2021-12-14 22:57:07
英语原文共 8 页
利用多维度Faster-RCNN方法实现驾驶人的手机使用以及在方向盘上的手的识别
作者:T. Hoang Ngan Le, Yutong Zhenglowast;, Chenchen Zhulowast;, Khoa Luu and Marios Savvides,CyLab Biometrics Center and the Department of Electrical and Computer Engineering,Carnegie Mellon University, Pittsburgh, PA, USA
摘要:在本文中,我们提出了一种先进的基于深度学习的方法,以自动确定驾驶员是否正在使用手机以及检测他/她的手是否在方向盘上(即计算方向盘上的手数)。为了可靠地检测诸如手之类的小物体,我们提出了使用标准区域提议网络(RPN)生成的多维度Faster - RCNN(MSFRCNN)方法,并且结合来自较浅卷积层提取的的特征,即conv3和conv4,用于ROI池化层。在我们的驾驶员分心检测框架中,我们首先利用所提出的MS-FRCNN来检测单个物体,即手,手机和方向盘。然后,提取几何信息以确定是否正在使用手机或手轮上有多少只手。所提出的方法在智能车辆和应用视觉(VIVA)挑战数据库以及具有挑战性的战略公路研究计划(SHRP-2)面部视图视频中得到了演示和评估,这些视频是在自然驾驶条件下监控驾驶员而获得的。实验结果表明,我们的方法在车轮检测和手机使用检测方面的性能优于Faster R-CNN,同时保持相同的测试成本。与最先进的手机使用检测相比,我们的方法获得更高的准确性,更少的时间消耗并且独立于地标。groundtruth数据库将公开发布。
- 介绍
根据美国国家公路交通安全管理局(NHTSA)和弗吉尼亚理工大学交通研究所(VTTI)发布的一项研究,80%的车祸涉及不同形式的司机分心,如通过手机通话,发送短信,阅读一本书,吃饭等[10]。在美国,据报道由于司机分心,每天有超过8人死亡,1,161人受伤。根据[6]2013年,在美国公路上发生了2,910次致命撞车事故,涉及2,959名分心驾驶员,并且有些车祸和不止一位分心的驾驶员有关。驾车时使用手机引起的分心,即411起致命车祸导致445人死亡是最着名的例子,使用手机明显降低了驾驶员的意识和反应能力。其他次要的分散注意力的例子诸如发送文本消息,阅读书籍,吃饭,喝酒等活动。在大多数分心的情况下,驾驶员将一只手甚至没有手放在方向盘上。因此,想成功地检测到驾驶员的手在车轮上需要关注几个指标。首先,为了驾驶员的安全,它提供驾驶员对道路的关注程度,例如在操作车辆时使用手[15]。其次,它有助于分析和理解驾驶员行为,例如在高速公路上操纵车辆或在交叉路口转弯[7]。
联邦公路管理局(FHWA)[3]正致力于开发和部署基于计算机视觉和机器学习的驾驶员监控算法,这些算法可能部署在真实场景中,用于驾驶员监控,作为执法工作的一部分。这些算法还可用于自动注释已收集的视频。FHWA最近委托一个探索项目,挑战大学和行业的研究人员开发一个有用的驾驶员状态检测器,以提取有关驾驶员的处置,乘客信息和驾驶性能的信息(包括检测困倦,手机使用,头部姿势跟踪,监控驾驶员是否双手放在方向盘上等)。
在本文中,我们提出了一种基于卷积神经网络(CNN)的方法来处理手机使用检测和手轮检测的问题,如图1所示。我们提出的基于CNN的方法名为Multiple Scale Faster-RCNN(MS-FRCNN),首先检测并提取感兴趣区域(RoI),即手,面和方向盘。每个RoI被分配一个置信度分数。为了研究是否正在使用手机或确定双手是否在方向盘上,使用高可靠性分数以及以下观察结果。首先,它每帧只有一个方向盘,如VIVA数据库所示。因此,在方向盘检测模块中选择具有最高分数的RoI。其次,它每帧只有一个面,如SHRP-2数据库所示。因此,在面部检测模块中选择具有最高分数的RoI。最后,在VIVA数据库中每帧有不止一只手,因此,得分高于阈值的RoIŤ在手检测模块中选择。然后使用几何信息来判断手是否在方向盘上,即调查手的RoI和方向盘的RoI之间的交叉点。还采用类似的方法来检查手机是否正被使用,即拿着手机的手的RoI位于驾驶员面部的RoI的左侧或右侧。
本文介绍了以下贡献:
1.提出多维度Faster - RCNN(MS-FRCNN)方法,F-RCNN的改进[18],可以稳健地检测在各种维度,姿势和环境条件下收集的手和脸等小物体的信息。实验表明,我们的MS-FRCNN在车轮检测和手机使用检测方面的存档性能优于F-RCNN,同时保持相似的测试成本。
2.定义的框架还具有在统一模型中稳健地检测方向盘,面部和手部的能力。不仅检测车辆中的手部,而且我们提出的方法还能够确定驾驶员是否正在使用手机或者方向盘上有多少只手。
3.与最先进的手机使用检测[19]相比,我们提出的方法实现了更高的准确性,更少的时间消耗并且具有里程碑独立性。值得注意的是,面部标志是一个非常具有挑战性并且耗时长的问题。
本文的其余部分安排如下。第2节回顾了先前关于检测车辆手部的研究,特别是关注手上的手和车轮上的手。第3节描述了最先进的基于区域的卷积神经网络(R-CNN)及其先进的算法。我们还讨论了驾驶员分心检测场景中现有方法的缺点。第4节详细介绍了我们提出的MS-FRCNN方法以及如何应用它来解决手机使用检测问题并进行车轮检测。第5节描述了数据库,实验方案和我们提出的方法获得的结果。第6节介绍了我们的最终结论。
图1
- 相关工作
在本节中,我们将回顾先前的驾驶员监控工作以及方向盘检测和手机使用检测方面的具体问题。
关于方向盘检测的手,提出了多模态视觉方法[13]来表征基于头部,眼睛和手部提示的驾驶员活动。来自这三个输入的融合线索使用分层支持向量机(SVM)丰富了驾驶员状态的描述,允许评估在路上设置中捕获的驾驶员性能。然而,这种用于检测的线性核SVM的方法更侧重于分析在这三个线索之间相关的驱动器的活动。它并没有强调在具有挑战性的条件下手动检测驾驶员的准确性,例如阴影,低分辨率,手机使用等.Ohn-Bar等。[14]引入了一个基于视觉的系统,该系统采用组合的RGB和深度描述符来对手势进行分类。该方法利用RGB和深度图像的组合对HOG特征进行各种修改,以实现高分类精度。然而,在这项工作的背景下,不可能在汽车中获得RGB和深度图像,因为这些视频通常在低照度下以低分辨率记录。米塔尔等人。[12]提出了一种两阶段方法来检测无约束图像中的手。使用三个互补的检测器来提出手边界框。然后将这些提议区域用作训练分类器以计算最终置信度分数的输入。在他们的方法中,使用基于上下文和基于皮肤的基于滑动窗口形状的检测器的提议来增加回忆。然而,这些基于皮肤的特征无法在我们提出的问题中起作用,因为所有视频都是在不良照明和灰度级下录制的。同时,这些用于手部跟踪和分析的方法[22] [16],[21]仅适用于具有高分辨率的深度图像。因此,它们无法用于本作品中使用的视频类型。
关于检测驾驶员对手机的使用,已经提出了许多方法,包括基于非视觉和基于视觉和机器学习的方法。为了估计使用手机与汽车中心的距离,Yang等人。[9]采用基于声学的方法利用汽车音响系统和蓝牙网络。因此,他们的方法能够确定使用中的手机是否来自驾驶员。Breed等人。[4]在汽车内的不同位置放置三个定向天线,以监控手机的发射。为了找到正在使用的手机的最可能位置,可以进行相关。张等人。[24]将隐藏条件随机场(HCRF)模型应用于面部,嘴部和手部区域的特征提取特征,以确定驾驶员是否正在使用手机。在他们的方法中,他们使用级联的AdaBoost分类器和Haar类特征进行人脸检测。他们还使用简单的基于颜色的方法进行口腔检测。对于检测手区域,它们包含颜色和运动信息。Artan等人。[25]采用了一系列计算机视觉和机器学习技术进行检测和分类。他们首先使用可变形零件模型(DPM)来定位挡风玻璃区域。然后,他们使用基于DPM的同时面部检测,姿势估计和界标定位算法来定位面部周围的感兴趣区域以检查手机的存在。最后,他们使用支持向量机(SVM)进行分类,以确定驱动程序是否正在使用手机。
与这些方法大不相同,我们提出的方法仅使用一个统一的基于深度学习的模型来鲁棒地检测多种类型的对象,以解决驾驶员分心检测和公路安全的问题,包括方向盘检测,面部检测和手检测。在我们的深度学习框架中,全局和局部上下文特征(即多缩放)与快速区域卷积神经网络同步,以便可靠地实现语义检测。此外,我们还结合了较浅的卷积特征映射(即conv3和conv4)的特征映射,用于ROI池化层,以增强能够检测较低级别特征的网络的能力。此外,为避免性能不佳,因为“较大”的功能通常主导“较小”的功能。
第三节 背景介绍
Deep ConvNets [2]最近显着改善了物体检测和图像分类的准确性。在本节中,我们将回顾各种众所周知的Deep ConvNets,即基于区域的卷积神经网络方法,包括R-CNN [17],快速R-CNN [8]和更快的R-CNN [18]。
3.1。R-CNN
基于区域的卷积神经网络[17]使用深度ConvNet来识别给定的对象提议。它实现了很高的准确性,但是非常耗时。它首先接受了对象提议的培训,并最终使用softmax回归层对ConvNet进行了微调。然后,通过使用SVM替换最后一层并使用来自微调ConvNet的特征,系统进一步训练用于对象检测。最后,它执行边界框回归。系统需要很长时间才能从每个映像中提取功能并将功能存储在硬盘中,这也会占用大量空间。在测试时,由于特征提取的缓慢,一个图像(在GPU上使用VGG16)的检测过程需要47秒。
3.2。快速R-CNN
R-CNN缓慢的主要原因是它独立处理每个对象提议而不共享计算。快速R-CNN [8]试图分享提案之间的功能。在测试时,它仅为每个图像提取一次特征,并使用ROI池化层从每个对象提议的卷积特征映射中提取特征。它还使用多任务丢失,即分类丢失和边界框回归损失。基于这两项改进,该框架是端到端的培训。每个图像的处理时间显着减少到0.3秒。
3.3。更快的R-CNN
快速R-CNN通过ROI池化层层加速检测网络。然而,区域提议步骤不在网络中,因此仍然是瓶颈,导致次优解决方案并依赖于外部区域提议方法。更快的R-CNN [18]通过区域提议网络(RPN)解决了这个问题。RPN被实现为完全卷积网络以预测对象边界和对象分数。它使用具有不同比例和比率的锚来实现平移不变性。整个系统可以使用非常深的VGG-16模型在0.2秒内完成建议和检测[20],因为RPN与检测网络共享全图卷积特征。
3.4。更快的R-CNN的局限性
快速R-CNN [8]和更快的R-CNN [18]在PASCAL VOC数据集上实现了最先进的性能。他们可以检测人,动物或车辆等物体。这些对象通常占据图像的大部分。然而,在我们的问题中,我们感兴趣的是检测手和脸,这些手和脸通常是小而低分辨率的物体,如图8所示。快速R-CNN中的检测网络难以检测到如图3的第一行所示的这种小物体Faster-RCNN找不到小手。原因是ROI池化层模块仅从一个单独的高级特征映射构建功能。例如,VGG-16模型从#39;conv5#39;层进行ROI池化层化,其总体步幅为16.当对象大小小于16像素时,投影的ROI池化层区域小于1像素#39;conv5#39;层即使建议的区域是正确的。因此,检测器将很难基于来自仅一个像素的信息来预测对象类和边界框位置。
第四节 我们提出的方法
本节介绍了我们提出的多维度更快 - RCNN(MS-FRCNN)方法,可以在SHRP-2 [23]和VIVA挑战[5]中收集的视频和图像中稳健地检测具有挑战性的物体,即方向盘,面部和手部。数据库。我们的方法旨在将全局和本地上下文特征同步到更快的RCNN,以实现最高精度的语义检测。Faster-RCNN中图层的平均特征用于增强每个位置的特征。
本节的其余部分将如下所示。首先,我们在4.1小节中概述了我们提出的MS-FRCNN方法。然后,第4.2小节介绍了如何同步多个缩放功能。第4.3小节详细介绍了我们在Caffe框架中对新规范化层的实现。最后,第4.4小节介绍了我们提出的MS-FRCNN方法,解决了手轮检测和手机检测问题。
4.1。多维度更快 - RCNN(MS-FRCNN
观察到的图像和视频中手和脸的大小通常是低分辨率的。因此,标准的快速R-CNN成功检测这些对象是一项具有挑战性的任务。造成这种困难的原因是标准Faster R-CNN中最后一个卷积层(conv5)中的感受域非常大。例如,给定尺寸为的手ROI区域64 times; 64 图像中的像素,其在conv5中的输出仅包含 4 times; 4 像素,不足以编码信息功能。
更糟糕的是,随着卷积层变深,相应特征图中的每个像素在ROI区域外收集越来越多的卷积信息。因此,如果ROI非常小,它在ROI区域之外包含更高比例的信息。这两个问题一起使得最后一个卷积层的特征图不太适用于小ROI区域。
因此,全局和局部特征(即多缩放)的组合,以增强快速RCNN网络中的全局上下文和本地信息,可以帮助稳健地检测我们感兴趣的对象。为了增强网络的能力,我们还结合了较浅的卷积特征映射的特征映射,即conv3和conv4,用于ROI池化层(图2)因此,网络可以检测到ROI中包含更高比例信息的低级特征区域。
具体而言,我们的方法与[18]中的区域提案网络(RPN)保持相同的定义。但是,我们为Fast-RCNN定义了一个更复杂的网络,以便在不同规模上训练这些对象提议。我们定义的网络包括五个共享卷积层,即conv 1,conv2,conv3,conv4和conv5作为标准层[18]。在前两个卷积层中,紧接在每个卷积层之后,分别有一个ReLU层,一
资料编号:[5241]