基于深度学习的行为识别研究文献综述
2020-04-15 09:44:13
随着信息科技的不断发展,人工智能迎来了前所未有的机遇和挑战。计算机视觉作为AI方面的一员,也迎来了巨大的发展并且有着不错的前景。计算机视觉就是让计算机、摄像头等机器如同人类一样接受信息,分析处理语义信息,并作出应对策略。人体动作识别作为计算机视觉领域的一个重要研究方向,一直被人们视为重点研究对象。人体动作识别技术具有很高的市场价值,在智能控制、运动分析、人机交互以及医疗监护等领域有着广阔的应用前景。因此基于深度学习的行为识别研究是一个具有重要意义的课题。
人体动作识别技术在计算机视觉领域里逐渐成为主流研究内容,已经成为了计算机视觉领域中的一项重要应用。动作识别的应用场景有以下两个方面:传统的视频监控系统一般是靠人来操控监控设备并使用人眼来识别和分析,人工识别和分析监控视频会大大降低监控的有效性和准确性。且人工操作会得到一个不全面的结果。因此,利用计算机视觉的人体动作识别方法来代替传统方法切实可行;人机交互旨在人与机器进行无差别交互,人类能够通过肢体语言或者自然语言流畅地与机器沟通,并且机器可以遵循人类的指示出色的完成各种工作。达到机器替代人类工作这一目的,实现这一美好的夙愿,则需要机器能够完全理解视觉中的人类及其肢体动作。
近年来深度学习被广泛的应用到人体动作识别领域,且发挥了极大的作用,提高了识别准确度。传统神经网络起源于 20 世纪七八十年代,当时流行的有感知机、BP 算法等浅层网络,随后九十年代提出的 SVM 效果更好,同期出现了诸如 Adaboost、随机森林、LR 等浅层神经网络,但这些网络由于很难处理梯度消失等训练问题,神经网络发展出现了低迷的时期。直到 2006 Hinton
和他的学生发布了利用 RBM(限制玻尔兹曼机)来构造 DBNs 深层神经网络模型的文章,这一神经网络模型开启了深度神经网络的时代。
朱煜等总结了深度学习在人体动作识别中的新进展,深度学习是机器学习领域的一个重要研究方向,近年来,通过深度学习方法来对人体动作进行识别广受研究员的关注,其主要的方法有深度置信网(DBNs)、卷积神经网络(CNN)和递归神经网络(RNN)。张顺等总结了深度卷积神经网络的发展以及在算机视觉领域的应用,分别从增加网络层数、增加数据规模和改进训练方法三方面,详细介绍了卷积神经网络的结构(Alex Net、ZF-Net、VGG、Goog Le Net、Res Net 等)、正则化技术(L2、Dropout、Dropconnect 等)和激活函数(Sigmoid、tanh、Re LU、LRe LU、PRe LU 等)以及损失函数(hinge、constrastive、softmax、triplet 等)。
在人体行为动作识别的相关技术领域,到目前为止,其识别的形式主要有两种:基于传感数据的识别方式和基于视频及图像数据的识别方式。
基于图像处理的人体动作识别主要依赖各种高帧率的视频捕获设备,在一定的视角范围内监测某一区域的视频图像,通过图形处理算法来判断当前区域是否有人、当前区域的人数以及当前区域中人的行为,包括人的动作、人的表情、人的手势等。这一研究方向更加注重于通过一些能凭借肉眼直接观测到的信息,利用摄像头来代替肉眼的功能去识别人的一些动作和行为。这样的特点使得基于图像处理的人体动作识别能够在安防方面、人机交互方面有特别大的应用空间。然而这一方法也存在很多不足之处。由于需要摄像头的拍摄,这种方式会不可避免地侵犯个人隐私,至少对于用户而言,几乎没有人会愿意一直被摄像头监视。
基于传感器的人体动作识别相对于基于图像的人体动作识别,具有的最大优点是利用各类传感器如加速度传感器、陀螺仪和压力计等,只采集一些如速度、加速度和压力等关乎运动状态的必要数据,对个人隐私的侵犯微乎其微。同时,由于传感器常常被设计成可穿戴式或是依附在便携式的设备比如手机、平板电脑上,使用人群不需要处于固定的范围内就可以获取数据,而且大多数携带者并不会因为一直被“监视”而产生心理上的不适。同时,由于传感器类型的多样性,采集到的数据也是多样化的。因此,基于传感器的人体动作识别,可以在很多不适合采用基于图像处理的人体动作识别方法的应用场景下发挥作用。所以本次设计选用的是基于传感器的人体动作识别。
{title}2. 研究的基本内容与方案
{title}主要研究内容和目标如下:
学习有关知识,深入了解行为识别和深度学习的原理和方法,python