基于RGB图像的人体姿态识别研究文献综述
2020-04-28 20:28:39
1.1研究目的及意义
人体姿态识别是计算机视觉领域的一个重要研究方向,它在众多领域具有广阔应用前景,比如智能监控、虚拟现实、高级人机交互、人体运动分析、人体行为分析等。基于RGB图像的人体姿态识别,在行为识别、人机交互、游戏、动画等领域有着很广阔的应用前景,通过对人体姿态的识别还可以延伸到人体动作行为的判断,是计算机视觉领域中一个既具有研究价值、同时又极具挑战性的热门课题。
给定一幅图像或一段视频,人体姿态识别就是去恢复其中人体关节点位置的过程。根据输入图像的类型,人体姿态识别算法可以分为两类:基于深度图的算法、以及直接基于RGB图像的算法。随着微软公司推出Kinect深度传感设备之后,基于深度图像的姿态识别技术得到了越来越多的学者关注和研究。但是,在研究中由于图像受光照、阴影外界变化以及人体姿态类别的限制、特征选择的难度、机器学习的局限性、识别算法的性能等因素的影响,人体姿态识别研究进展缓慢,姿态识别的方法成为近些年的研究热点。相较于深度图对图像采集设备要求过高而带来的应用易受限的问题,基于RGB图像的人体姿态估计算法具有更广的应用前景,并且在学术上也取得了很好的成果。目前,即便是针对比较复杂的场景下,基于RGB图像的人体姿态估计算法也能达到很好的识别效果。以下就将简要的介绍一些重要的应用领域及其研究发展方向。
(1)人机交互。人体姿态识别很有前景的潜在应用之一是人机交互。在新的人工智能环境中,不需要键盘鼠标就能实现人和计算机的信息交互。这就需要在这一过程,能够实时地识别人体的姿态,了解各种状态,判断各种信息,从而做到信息的交互。
人类进行交流的语言工具分为自然语言(Natural Language)和人体语言(Body Language)两类,自然语言是最常见的语音,即谈话等,而人体语言则包括了手势、面部表情、头部动作、身体姿势等等的身体动作所传达的信息。要做到人机交互,人体语言的识别和理解是很重要的一部分。在早期的研究中,广泛应用于人机交互的主要是语音识别,但是这很容易受到环境噪声和距离的限制。而人的动作识别则不受此限制,能从中获取到更多的细节,这对于实现人机之间更加自然和智能的交流的自然场景理解非常有用。
(2)智能监控。智能监控通常应用在那些对安全性要求很高的区域,例如银行、机场、酒店等等。在目前的这些应用中,通常是一种被动的监控。当异常情况发生之后(例如车辆被盗),保安人员调取录制的摄像片段来了解发生的事实,实行补救措施。但这种被动的监控往往为时已晚,实际中所需要的是一种24小时的实时监控,及时、自动地分析摄像设备所获取的图像数据,当发生异常情况时,能够及时有效地通知保安人员,准确地做出判断,从而避免犯罪等情况的发生。这种主动式的监控一方面减少了被动监控所造成的大量人力物力的消耗,另一方面大大提高了监控的成效,做到了有的放矢。
在一些公共场合,通过智能监控,了解行人的动作状态、拥挤程度,识别可疑人物的出现等等,适时的对公共场所的安全进行维护。同时,也可以对用于商场、ATM机等地方的商业数据分析,为商家提供动态的消费数据统计分析。
(3)VR。这是到目前为止一个应用比较广泛的领域——虚拟现实,即在计算机虚拟世界中模拟真实的生活场景,使得在计算机的使用者能够感受到一种较真实的环境。要做到这一点,首先就是基于现实生活中的观察分析,这其中一个很重要的就是人体动作的识别。
在电脑游戏中,对人体动作的识别能够使得游戏中出现的人体更加真实化,其发生动作也更加自然流畅。并且,通过人体动作的识别能够了解实际中人体动作的数据,这些数据是用于游戏的开发设计的重要参数。而在基于互联网的交互式空间中,目前多是文本交流模式,例如QQ,MSN等。在新的应用中可以通过提供手势、头部、面部表情等等的信息线索,增加丰富的交互形势。此外,在视频会议、人物动画、虚拟工作室等等方面也有很好的应用。
(4)动作检测。通过对动作序列的研究,跟踪分析感兴趣的关节活动,可以建立人体的几何模型,了解人体动作的行为机制,从而可以有效地提高人体的动作性能。这一点最突出的应用是在体育动作中,在现在的竞技体育中,如田径、游泳、跳水等等,通过分析运动员的动作过程,建立一个最优的动作模型,在动作的速度、姿态等等方面做出改进,提升动作员的竞争力。在体育视频中,通过自动地对动作进行分析、判断,提供科学直观的辅助分析手段,同时,也可以为体育赛事提供即时的比赛评注、 赛况分析等等。在医学应用中,步态分析旨在通过分析人体的生物反馈系统,并结合正常的步态建模,分析病人的步态状况,判断其腿部的伤病情况或畸形程度,从而能够为医学治疗提供有效地参考数据。在电影和游戏中根据演员的动作来制作角色的动作以及特效等制作一样拥有广泛的应用。