登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 机械机电类 > 测控技术与仪器 > 正文

基于深度学习的行为识别研究毕业论文

 2020-02-19 19:02:28  

摘 要

人体行为识别是机器视觉方面的一个重要研究内容,从出现之初就一直被人们所重视。本文研究内容为基于传感器的人体行为识别,基于传感器的行为识别具有不侵犯个人隐私、算法较为简单、数据获取较容易等优点。本文是通过UCI(University of California Irvine)数据库中的智能手机数据集对六种不同的人体行为的识别,分别是:坐(sitting)、站(standing)、行走(walking)、躺(laying)、上楼(walking_upstairs)、下楼(walking_downstairs);建立的模型是异于传统方法的、不需要太多特征值的具有长短期记忆单元(Long Short-Term Memory)的循环神经网络(Recurrent Neural Network);该模型是经过改进后的双层RNN(Recurrent Neural Network)结构模型,该模型对本次人体动作识别可以达到90%的识别率,对于区别并不是很大的“坐”和“站”也有着很不错的区分,识别率分别为93.32%和77.25%。

关键字:人体动作识别;RNN;LSTM;UCI数据库

Abstract

Human behavior recognition is an important research content in machine vision, which has been paid attention to since its emergence. The research content of this paper is human behavior recognition based on sensor. Sensor-based behavior recognition has the advantages of non-invasion of personal privacy, simple algorithm, easy data acquisition and so on. This paper identifies six different human behaviors through the smartphone dataset in UCI (University of California Irvine) database, which is walking、 sitting、standing、laying,、walking_upstairs、walking_downstairs; the model is different from the traditional method, and the cyclic neural network (Recurrent Neural Network); with long-term and short-term memory units (Long Short-Term Memory) does not need too many eigenvalues. The model is an improved double-layer RNN (Recurrent Neural Network) structure model, which is applied to this model. Body motion recognition can achieve 90% recognition rate, and there is also a good distinction between "sitting" and "station", which are 93.32% and 77.25% respectively。

Keywords: Human Activity Recognition;RNN;LSTM;UCI-data-set

目录

第一章 绪论 1

1.1 研究背景及意义 1

1.2 国内外研究现状分析 1

1.3 论文研究内容及各章节安排 2

第二章 深度学习理论框架 3

2.1 深度学习简介 3

2.2 卷积神经网络(CNN) 5

2.3 循环神经网络(RNN) 6

2.4 基于RNN的长短期记忆神经网络(LSTM) 10

2.4.1 长期依赖(Long-Term Dependencies)问题 10

2.4.2 长短期记忆神经网络(LSTM) 11

2.4.3 LSTM的结构 12

第三章 人体行为识别的理论基础 15

3.1 人体物理活动的加速度特征 16

3.2 三轴加速度传感器 16

3.3 三轴陀螺仪传感器 17

第四章 基于LSTM的人体行为识别 18

4.1 数据集 18

4.2 模型建立 19

4.3模型优化和改良 21

4.4 模型测试结果及分析 23

4.4.1 混淆矩阵(Confusion Matrix) 23

4.4.2 模型测试结果 24

第五章 总结和展望 27

参考文献 28

致谢 30

附录程序清单 31

绪论

研究背景及意义

自20世纪80年代,人体行为识别领域刚开始起步就吸引了许多的研究人员踏入到这个领域。随着AI、机器学习、智能硬件和微型芯片等技术的出现和不断革新发展,非常多的能够检测人体生理状态的智能硬件和高灵敏度、快反应速度的传感器出现,比如说检测人体温度、心跳和脉搏的传感器;监测人体动作方向和加速度的智能生物传感器等。机器视觉随着人工智能的发展也迎来了广阔的前景。计算机视觉[1]就是让计算机、摄像头等机器如同人类一样接受信息,分析处理语义信息,并作出应对策略。人体动作识别作为计算机视觉领域的一个重要研究方向,一直被人们视为重点研究对象。

人体动作识别技术在计算机视觉领域里逐渐成为主流研究内容,已经成为了计算机视觉领域中的一项重要应用。传统的视频监控系统一般是靠人来操控监控设备并使用人眼来识别和分析,人工识别和分析监控视频会大大降低监控的有效性和准确性,且人工操作会得到一个不全面的结果。因此,利用计算机视觉的人体动作识别方法来代替传统方法切实可行;人机交互旨在人与机器进行无差别交互,人类能够通过肢体语言或者自然语言流畅地与机器沟通,并且机器可以遵循人类的指示出色的完成各种工作。达到机器替代人类工作这一目的,实现这一美好的夙愿,则需要机器能够完全理解视觉中的人类及其肢体动作。

所以人体动作识别技术具有很高的市场价值,在智能监控、医疗监控系统、人机交互以及体育训练等领域有着广阔的应用前景。传统的控制需要人工介入,通过分析现场情形做出相关操作或者是一些调整措施,生产力得不到解放,财力人力也会被浪费,如何在现场安装智能控制装置,既能够根据现场情形做出相对应的调整,解放多余生产力,还能保证因困乏导致的安全隐患;竞技体育因其独特的魅力深受人们喜爱,但一些关键的判罚却常常引人困惑,如果将人体动作识别应用到体育分析领域,不仅能够免去不必要的争议,还能够改正运动员训练时错误的姿势;目前中国的人口老龄化愈发严重,老年人数量的增多、年轻人经济压力大外出打工无暇照顾父母的状况,让空巢老人的安全问题受到了极大的挑战,如果将智能化的医疗监护系统安装在家便可对老人的突发状况进行很好的监督,对老年人的健康安全能起到非常好的作用。因此人体行为识别研究是一个具有重要意义的课题,对未来社会的发展起着巨大的促进作用。

国内外研究现状分析

近年来深度学习[2]被广泛的应用到人体动作识别领域,且发挥了极大的作用,提高了识别准确度。传统神经网络起源于 20 世纪七八十年代,当时流行的有感知机[3]、BP 算法[4]等浅层网络,随后九十年代提出的 SVM[5] 效果更好,同期出现了诸如 Adaboost、随机森林[6]、LR 等浅层神经网络,但这些网络由于很难处理梯度消失等训练问题,神经网络发展出现了低迷的时期。直到 2006 Hinton和他的学生发布了利用 RBM(限制玻尔兹曼机)[7]来构造 DBNs 深层神经网络模型的文章,这一神经网络模型开启了深度神经网络的时代。

朱煜[8]等总结了深度学习在人体动作识别中的新进展,深度学习是机器学习领域的一个重要研究方向,近年来,通过深度学习方法来对人体动作进行识别广受研究员的关注,其主要的方法有深度置信网(DBNs)[9]、卷积神经网络(CNN)和循环神经网络(RNN)[10]。张顺等总结了深度卷积神经网络的发展以及在算机视觉领域的应用,分别从增加网络层数、增加数据规模和改进训练方法三方面,详细介绍了卷积神经网络的结构(Alex Net、ZF-Net、VGG、Goog Le Net、Res Net 等)、正则化技术(L2、Dropout、Dropconnect 等)和激活函数(Sigmoid、tanh、Re LU、LRe LU、PRe LU 等)以及损失函数(hinge、constrastive、softmax、triplet 等)。

在人体行为动作识别的相关技术领域,到目前为止,其识别的形式主要有两种:基于传感数据的识别方式和基于视频及图像数据的识别方式。

基于图像处理的人体动作识别主要依赖各种高帧率的视频捕获设备,在一定的视角范围内监测某一区域的视频图像,通过图形处理算法来判断当前区域是否有人、当前区域的人数以及当前区域中人的行为,包括人的动作、人的表情、人的手势等。这一研究方向更加注重于通过一些能凭借肉眼直接观测到的信息,利用摄像头来代替肉眼的功能去识别人的一些动作和行为。这样的特点使得基于图像处理的人体动作识别能够在安防方面、人机交互方面有特别大的应用空间。然而这一方法也存在很多不足之处。由于需要摄像头的拍摄,这种方式会不可避免地侵犯个人隐私,至少对于用户而言,几乎没有人会愿意一直被摄像头监视。

基于传感器的人体动作识别相对于基于图像的人体动作识别,具有的最大优点是利用各类传感器如加速度传感器、陀螺仪和压力计等,只采集一些如速度、加速度和压力等关乎运动状态的必要数据,对个人隐私的侵犯微乎其微。同时,由于传感器常常被设计成可穿戴式或是依附在便携式的设备比如手机、平板电脑上,使用人群不需要处于固定的范围内就可以获取数据,而且大多数携带者并不会因为一直被“监视”而产生心理上的不适。同时,由于传感器类型的多样性,采集到的数据也是多样化的。因此,基于传感器的人体动作识别,可以在很多不适合采用基于图像处理的人体动作识别方法的应用场景下发挥作用。

论文研究内容及各章节安排

本文研究内容是对人体的六种行为坐(sitting)、站(standing)、行走(walking)、躺(laying)、上楼(walking_upstairs)、下楼(walking_downstairs)进行分类和识别,其中的数据(训练集和测试集)来源为UIC(University of California Irvine(加州大学欧文分校)) 数据库中的行为识别智能手机数据库。测试结果用图表式和混淆矩阵来进行分析识别,对六种行为有着很好的识别,在区别不大的站(standing)和坐(sitting)也有着不错的区分。

本文结构安排如下:

第一章绪论。主要介绍了人体动作识别在当今社会的研究背景和意义,以及近年来深度学习国内外研究现状的介绍和分析,并阐明了本文研究内容和文章结构安排。

第二章深度学习理论框架。主要内容为深度学习的概念简介及发展历程,以及当下AI领域最常用的两种神经网络结构:卷积神经网络(CNN)和循环神经网络(RNN)的基本模型,并且着重介绍了本次研究内容使用的长短期记忆神经网络(LSTM)。

第三章行为识别的理论基础。介绍了人体行为带来身体重力加速度和身体加速度的变化,这让基于传感器的行为识别成为可能。另外还额外介绍了智能电子设备中的三轴加速度传感器和三轴陀螺仪传感器。

第四章基于LSTM的人体行为识别。首先说明了数据集的来源:UCI数据库,并说明数据预处理的过程。双层RNN模型的建立和训练时候一些超参数的设定等。最后引进混淆矩阵这个新概念来展示本次研究内容的成果。

第五章总结和展望。总结了本次研究对双层RNN模型的优化措施并且提出了模型的一些改进措施以及人体行为识别未来的前景。

第二章 深度学习理论框架

2.1 深度学习简介

深度学习来源于机器学习,所以要先从机器学习说起。机器学习简单来说就是让机器能够像人类一样通过学习某些东西从而来达到某种目的。人类在成长、生活过程中积累了很多的历史与经验。人类定期地对这些经验进行“归纳”,获得了生活的“规律”。当人类遇到未知的问题或者需要对未来进行“推测”的时候,人类使用这些“规律”,对未知问题与未来进行“推测”,从而指导自己的生活和工作。比如说,人生来是不认识小狗的,但在我们不断的学习过程中我们认识到具备某些特征的事物就是小狗,在今后的生活中我们一直在重复学习的过程,事物也从不认识到认识。机器学习类比人类学习,它的“训练”过程就相当于是人类的“经验”,“预测”过程对应到人类基于经验的的“推断”。深度学习的目的是建立一个能像人脑一样能够进行学习并以此为据对一些事物做出判断的深度神经网络。

图2-1 AI、机器学习、深度学习的关系

深度学习的概念的提出是来自于人工神经网络(Artifical Neural Networks, ANN)的研究。人工神经网络是一种能够对生物神经网络,特别是人脑神经,进行模拟并对外界信息进行分析处理的算法模型。深度学习网络具备以下几个特征:使用多层级联非线性处理单元用于特征提取和转换;每一层的输出都是下一层的输入;通过监督(分类)或无监督(模式识别)方式学习;学习对应于不同抽象级别的多级表示。图2.2展示的是一个经典的神经网络,包括输入层、两层隐藏层和输出层。本章节后面介绍的是两种当下最常用的神经网络模型:卷积神经网络(Convolutional Neural Networks, CNN)和循环神经网络(Recurrent Neural Networks,RNN)。

图2.2 一个经典的神经网络模型

2.2 卷积神经网络(CNN)

1962年,两个生物学家Hubel和Wiesel[11]在研究猫脑视觉皮层中用于局部敏感和方向选择的神经元时发现这种神经元有着独特的结构,这种结构对信息的处理具有层次性,即猫脑视觉皮层处理信息的时候是一层一层的提取信息,简单的信息先提取出来,然后不断提取简单信息得到高层次的抽象信息。这种结构在目前AI神经网络结构中非常常用,它就是卷积神经网络(Convolutional Neural Networks,简称CNN)的前身。

图2-3是一个典型的 CNN 结构图, 该结构对输入图像进行卷积、池化的重复操作,不断提取和缩减特征值最后得到高维抽象特征,最后用全连接层将高维局部特征连接起来形成整个图像特征进行输出识别。

图2-3 一种典型的CNN模型

卷积神经网络(CNN)核心结构是卷积,网络结构名字也是由卷积而来。卷积的本质其实类似于一个具有一定大小输入量的传感器,作用就是提取信息中的特征值。局部连接和权值共享是CNN采用的两种重要方式,这两种方式一方面能够减少权重参数的数量,便于网络易于优化;另一方面能够降低模型的复杂程度,减小过拟合的风险,这些优点在输入信息为图像时表现的更为明显。CNN的缺点是需调调整参数,需要大量的训练样本,训练耗时长。卷积神经网络的常用框架有caffe、TensorFlow等。

卷积神经网络(CNN)通常包含三种层结构:卷积层( Convolutional layer)、池化层(Pooling layer)和全连接层( Fully-Connected layer)。

● 卷积层(Convolutional layer)

卷积是一种积分变换的的数学工具,具体操作就是将两个函数进行相乘并积分的到一个新的函数,新函数代表的是两个旧函数经过翻转和平移后重叠部分的面积。

设:f(x),h(x)是两个可积函数,作积分:

(2-1)

式2-1表明g(x)为f(x)和h(x)的积分,即卷积。

卷积层是CNN的主要组成部分,它的主要目的是从输入图像中提取不同的特征。卷积层是由一系列滤波器或可学习的卷积核组成,这些卷积核旨在从输入中提取局部特征并计算特征图或卷积核图。卷积层提取的特征值随着层数的不同提取到的特征值也不同,层数越高特征值级别就越高,特征值就越抽象。卷积核大小是指滤波器的大小,它围绕特征映射进行卷积;而滤波器滑动的距离(滑动过程)是跨度,它控制滤波器如何在特征映射周围进行卷积。因此,滤波器通过每次滑动一个跨度来卷积输入特征映射的不同层 。

● 池化层(Pooling layer)

池化(pool)又名下采样(downsamples),池化层夹杂在卷积层之间,作用是通过减少卷积层提取到的特征值达到降低整个模型参数数量、压缩数据并减少模型复杂度的目的。常用的池化操作方法有最大池化法、平均池化法和随机池化法,但是在实际中最常用的是最大池化法。图2-4为最大池化的一个简单例子:最大池化用2*2式滤波器,每次步长为2,对一个4*4的窗口进行池化操作,如第一个2*2窗口中选择最大值6进行输出;第二个2*2窗口中选择最大值8进行输出;后面以此类推得到最大池化输出的结果。

图2-4 最大池化法

● 全连接层( Fully-Connected layer)

全连接层的主要目的是将提取到的最高级别特征值连接在一起并输出给分类器(如softmax分类器)进行分类。为了说明网络训练如何减少预测值和真实标签之间的偏差,可以使用例如softmax,sigmoid交叉熵或欧氏损失的损失函数。

2.3 循环神经网络(RNN)

传统神经网络如CNN(卷积神经网络)、DNN(深度神经网络)等网络结构在层与层之间(如输入层到隐藏层、隐藏层到输出层)建立了权重关系,但是并不没有在隐藏层之前的神经元之间建立任何关系。所以这些传统的神经网络结构的输出都是只考虑当前时刻的输入信息,并不会考虑之前或者之后时刻信息状态是什么情况。所以这些算法对于一些与时间先后有关的问题处理上表现的不尽如人意, 比如说影视剧情发展方向、小说前后文内容预测等。在这样的背景下, RNN应运而生了。

RNN是一种比较特殊的神经网络结构,它的灵感来源于人的记忆功能。当时的科学家们联想到人脑能够记忆起很久远的事情进而提出RNN网络结构。RNN主要是用来来处理和预测序列数据的神经结构。传统的神经网络模型中,输入层到隐含层再到输出层,层与层之间是全连接的当时每层之间的节点并没有连接。这种普通的神经网络对于预测句子的下一个词语是什么这样简单问题都无能无力。RNN结构中一个序列当前的输出与当前时刻的输入和之前时刻的输出是有关系,甚至可以和之后时刻的输出连接起来,所以在解决这类问题方面显得轻而易举。RNN的表现形式是神经网络会记忆并保存前一时刻的信息,下一时刻处理的信息是之前的记忆信息和当前时刻输入信息的结合,即当前隐藏层输入包括当前时刻的输出和上一时刻隐藏层的输出两部分。在理论上,RNN能够对任何长度的序列数据进行处理,但在现实实践中,完成这样子的操作需要非常复杂的网络结构且难以实现。RNN的应用领域也比较广阔,比如自然语言处理(NLP)、机器翻译、语言识别和图像表述生成等领域。图2-5即为一个典型的RNN结构:X、O、S分别代表的为输入层。隐藏层、输出层的信息;t-1、t、t 1分别代表前一时刻、当前时刻和后一时刻,意味着不同的时间点;U、W、V分别代表的是输入层到隐藏层、当前隐藏层到下一时刻隐藏层、隐藏层到输出层的权重。

以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。

相关图片展示:

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图