基于深度学习的驾驶人姿态监测方法毕业论文
2021-11-08 21:26:49
摘 要
随着自动驾驶技术的变革,将在很大程度上解放驾驶员,但驾驶员依然在交通安全领域发挥关键作用。在未来相当长的时间内,车辆的安全行驶依然依赖于人和系统的密切配合,所以需要一个系统能够实时准确估计人体当前的姿态并当驾驶员处于不正确姿态时及时提醒,从而确保安全、合理的人机交互过程。
本文首先研究深度学习技术在人体姿态估计领域的发展过程,详细介绍并比较各种网络的结构,总结技术上的关键发展;随后根据系统和任务的特性设计一整套驶员人体姿态估计和驾驶行为分类的网络,并基于开源项目和数据集搭建并训练模型;最后根据实验结果总结网络的优缺点,并评估实际应用的可行性。
本文的创新点在于:目前针对驾驶姿态分类任务的网络大多采用直接分类。由于网络只学习图像中的局部特征,并没有对驾驶员的人体姿态进行学习,推广到实际的使用条件下时,会由于复杂的驾驶环境产生误判,而驾驶员姿态监测系统依赖于网络输出的姿态分类信息,这会严重影响驾驶员监督系统的鲁棒性。本文提出如何利用人体姿态的估计信息设计出准确、可靠、适用性强的分类网络。
关键词:人体姿态估计;分心驾驶分类;驾驶员姿态监控;深度学习
Abstract
With the transformation of autonomous driving technology, the driver will be liberated to a great extent, but the driver still plays a key role in the field of traffic safety. The safe driving of vehicles still depends on the close cooperation between people and the system for quite a long time in the future, so a system is needed to accurately estimate the current posture of the human body in real time and promptly remind the driver when the driver is in an incorrect posture, so as to ensure safety and Reasonable human-computer interaction process.
This paper first studies the development process of deep learning technology in the field of human posture estimation, introduces and compares the structures of various networks in detail, and summarizes the key developments in this area; then a set of human body pose estimation and driving behavior is designed according to the characteristics of the system and the task Classified networks, and build and train models based on open source projects and data sets. Finally, according to the experimental results, the advantages and disadvantages of the network are summarized, and the feasibility of practical application is evaluated.
The innovation of this article is that most of the current networks for driving posture classification tasks use direct classification. Because the network only learns the local features in the image and does not learn the driver's human posture, when it is extended to the actual use conditions, it will cause misjudgment due to the complex driving environment, and the driver's posture monitoring system depends on the network output. Classification information, which will seriously affect the robustness of the driver supervision system. This paper proposes how to use the estimation information of human posture to design an accurate, reliable and highly applicable classification network.
Key Words: Human pose estimation; distracted driving classification; driver posture monitoring; deep learning
目录
摘 要 3
Abstract 4
第一章 绪论 7
1.1 论文目的 7
1.2 论文意义 7
1.3 论文组织架构 8
第二章 国内外研究现状分析 9
2.1非深度学习背景人体姿态估计技术研究现状 9
2.2基于深度学习的人体姿态估计技术研究现状 10
第三章 网络结构 18
3.1 YOLOv3部分 18
3.1.1 YOLO的基本结构 18
3.1.2 YOLOv3的改进 20
3.2 SPPE部分 24
3.2.1 边界框定位假阳性问题 24
3.2.2 SSTN的数据增强 26
3.2.3 堆叠沙漏网络 27
3.2.4 冗余姿势的消除 36
3.3 驾驶行为监督部分 38
3.3.1 融合组成模型的SPPE网络设计 38
3.4 分心驾驶分类网络设计 44
第四章 实验 46
4.1 数据集与评价标准 46
4.1.1 COCO人体关键点数据集 46
4.1.2 State-Fram分心驾驶数据集 48
4.2 训练环境与超参数设定 49
4.3 训练结果 50
4.3.1 SPPE训练结果 50
4.3.2 分心驾驶分类网络训练结果 51
第1章 绪论
1.1 论文目的
随着自动驾驶技术的发展,驾驶员将会被解放出来,允许在汽车行驶过程中参与更多的与驾驶无关的活动,从而呈现出新的姿态, 这些新姿态是优化传统被动安全系统的重要切入点。并且根据美国汽车协会(AAA)的研究,在未来相当长的时间内,自动驾驶车辆的行驶依然依赖于人和系统的密切配合,所以需要一个系统能够实时准确估计人体当前的姿态并当驾驶员处于不正确姿态时及时提醒,从而确保安全、合理的人机交互过程[1]。本文的目的是:一,研究深度学习技术在人体姿态估计领域的发展过程,详细介绍并比较各种网络的结构,总结技术上的关键发展。二,基于开源项目和数据集搭建并训练模型,实现基于摄像头的实时有效的人体姿态估计,并开发相应的监测系统,提醒驾驶员与驾驶系统之间保持正确的联系。
1.2 论文意义
(1) 随着自动驾驶技术的变革,将在很大程度上解放驾驶员,但驾驶员依然在交通安全领域发挥关键作用。自动驾驶按照等级可划分为L1-L5,L1、L2目前已经实现,也用于普遍的商业化,L3是当前车企与互联网企业积极推进的方向。相信在不久后,驾驶大部分情况将由智能系统接管,允许驾驶员投入到与驾驶不相关的活动中去,例如工作、吃东西、看电影、读书等。但是L3级别并不完善,很多情况下系统无法做出及时可靠的判断,所以需要驾驶员尽早意识到接管的需要,做出有效的判断,并及时介入车辆操纵,以保证驾驶安全。驾驶员从注意力分散状态到介入驾驶,需要一个过程,驾驶员姿态监测系统可以确保该过程舒适安全。该系统通过人体姿态估计技术定位驾驶员身体关键部位,并以此推断其活动状态并判断其接管能力,结合实时的路况反馈,能及时提醒驾驶员调整姿态。
(2) 驾驶员姿态监测系统的核心为人体姿态估计技术。在过去,往往需要接触式的传感器对人体关键点进行实时准确的定位,而随着计算机的快速发展和深度学习技术的逐步成熟,使用单目摄像头实时稳定地监测驾驶员姿态成为可能。作为计算机视觉(computer vision)的主要分支领域,人体姿态估计需要考虑背景遮挡、照明、服装形状和纹理、肤色和图像缺陷等问题,并且需要使计算机学习正确的人体姿态结构,但同时人体姿态的数据库量相比于其他同类领域较少,使它成为其中最复杂的任务之一。为提升人体姿态估计的性能,除了扩充数据库、加深网络提高训练次数外,如何充分利用人体结构特点、网络学习特点,创新算法流程、网络结构成为相关领域工程师关注的话题。从2013年到现在,已经涌现出各式各样的算法结构,人体姿态估计性能有了显著地提高。本文将研究深度学习技术在人体姿态估计领域的发展过程,详细介绍并比较各种网络的结构,总结技术上的关键发展。
(3)目前针对驾驶姿态分类任务的网络大多采用直接分类,但会出现分类性能不稳定,无法普及到更一般场景的缺点。这是由于网络只学习训练集中各图像的局部特征,并没有对驾驶员的人体姿态进行学习。只有在训练集与验证集图像近似、特征明显的情况下才能进行良好分类。但推广到实际的使用条件下,会由于复杂的驾驶环境产生误判,而驾驶员姿态监测系统依赖于网络输出的姿态分类信息,这会严重影响驾驶员监督系统的鲁棒性。本文提出如何利用人体姿态的估计信息设计出准确、可靠、适用性强的分类网络。
1.3 论文组织架构
本文的组织结构分成以下几部分:
第一章:绪论。本章主要介绍驾驶员姿态监测系统的研究背景,以此展开论文的研究目的和论文对该方面研究的几个意义。
第二章:研究现状。本章针对驾驶员姿态检测系统中最核心的人体姿态估计技术的研究现状做出说明,重点阐述了基于深度学习的方法。
第三章:网络结构。本章设计了一整套驾驶员人体姿态估计和驾驶行为分类的网络。该网络整体的框架基于RMPE[28],由三大部分组成:YOLOv3[29]用于人体的检测,基于PyraNet[12]的SPPE用于人体关键点的估计,以及基于残差模块的分类网络用于对驾驶行为进行分类。
第四章:实验。针对第三章设计的网络进行训练和验证,总结网络的优缺点,并评估实际应用的可行性。
第五章:结论,本章主要对之前的工作内容进行总结,并对人体姿态估计的未来发展趋势和驾驶员姿态监测系统的实际应用进行展望。
第2章 国内外研究现状分析
2.1非深度学习背景人体姿态估计技术研究现状
通过计算机视觉实现非接触、低成本、高准确率、实时的驾驶员姿态检测在过去的几年中随着深度学习技术的发展逐步成为现实。其中,人体姿态估计技术,即定位图像或视频中人体各个关节点(例如头部、手腕等)并构建正确的姿态,是理解驾驶员行为的关键一环。
图1 姿态识别演示
人体姿态估计一直以来都是困难的计算机视觉问题,主要由于图像中很小或被隐藏的关键点,障碍物的阻隔,衣物、肤色的差异、光线、身体部位各自的差异、摄像头角度等等,这些都会对计算机的识别造成严重干扰。
图2 困难识别情况
人体姿势估计的传统、非深度学习的方法是使用图像特征复合人体结构。它利用“弹簧”链接的“零件”的集合来表示人体。 其中,“零件”是在图像中利用特征匹配(例如Haar特征)得到的人体关键点,“弹簧”表示人体关键点的可变形链接,且不同“零件”间的“弹簧”具有不同的“刚度”。 该方法将人体姿态估计问题转变为结构化预测任务,准确率依赖于姿势模型的建立而不是数据集的丰富程度。因此,经典方法的研究集中在丰富模型的表示能力上。
图3 经典方法
在经典方法中,由Yang和Ramanan创造的Deformable part models[2]具有较高代表性。该模型使用混合“零件”模型来表达复杂的关键点关系,即每个 “零件”模型都有全局特征和局部特征。 这些特征在图像中匹配以检测对象。 这种混合方式可以很好地识别局部关键点,但是在全局范围内效果较差。
2.2基于深度学习的人体姿态估计技术研究现状