基于深度学习的手势识别方法研究毕业论文

2020-02-17 22:26:28

摘要

近些年来，计算机技术发展的非常的迅速，也给我们的生活带来了更多的方便，也促进了人机交互技术的进步。手势也是一种人机交互的方式，这种交互方式以其清楚明了、便捷、简单等优点成为当前研究的热点。传统的手势识别通常情况下使用的是数据手套，这类方法的成本过高，而且还要求使用者戴上专用的复杂的数据手套，操作非常的不方便。而近些年来，深度学习理论逐渐引起了广大学者们的注意，基于计算机视觉的手势识别方法也借此才大放异彩。

本文首先对手势识别课题的研究背景及国内外现状进行了分析，然后阐述了深度学习理论，重点说明和分析了深度学习的两个最常见的网络模型，即循环神经网络和卷积神经网络，还表明了它们所具有的不同的特点，然后根据它们所适用的领域，本文在进行手势识别研究时最终选择了卷积神经网络作为研究重点。之后对手势识别的主要步骤进行了详细说明，包括手势图像的采集、预处理、建立手势数据集、模型训练、最终识别等。选用了卷积神经网络的经典框架之一VGGNet-16用于手势识别。最后还利用本设计将手势用于控制网易云音乐播放器，以实现音乐的暂停/播放、下一首播放、上一首播放等功能。

实验结果表明，对于本设计所录制的的五种手势，在测试集上的识别率可以达到99.8%，而且实时测试时的手势识别效果也很好，识别速度比较快。

关键词：深度学习；手势识别；卷积神经网络；VGGNet-16

Abstract

In recent years, the development of computer technology has been very rapid, which has brought more convenience to our lives and promoted the progress of human-computer interaction technology. Gestures are also a way of human-computer interaction. This kind of interaction has become a hot topic in current research because of its clear, convenient, simple and simple advantages. Traditional gesture recognition usually uses data gloves. The cost of such methods is too high, and users are required to wear special and complicated data gloves, which is very inconvenient to operate. In recent years, the theory of deep learning has gradually attracted the attention of scholars. The method of gesture recognition based on computer vision has attracted the attention of researchers.

This paper first analyzes the research background of gesture recognition topics and the status quo at home and abroad, then introduces the deep learning theory, highlights and analyzes the two most common network models of deep learning, and also shows the different characteristics of them. Then, according to their applicable fields, this paper finally chose the convolutional neural network when doing gesture recognition research. After that, the main steps of gesture recognition are described in detail, including the acquisition of gesture images, preprocessing, establishment of gesture data sets, model training, and final recognition. VGGNet-16, one of the classic frameworks of convolutional neural networks, was chosen for gesture recognition. Finally, this design is also used to control the music player to realize the functions of pause/playback of music, next play, and previous play.

The experimental results show that for the five gestures recorded in this design, the recognition rate on the test set can reach 100%, and the gesture recognition effect in real-time test is also very good, and the recognition speed is faster.

Key word: Deep learning; gesture recognition; convolutional neural network; VGGNet-16

第1章绪论 1

1.1 研究背景及意义 1

1.2 国内外研究现状及发展趋势 2

1.2.1 国内外研究现状 2

1.2.2 发展趋势 3

1.3 本文主要研究内容 4

1.4 章节安排 5

第2章深度学习 6

2.1 循环神经网络 6

2.2卷积神经网络 8

2.2.1卷积神经网络的特点 8

2.2.2 卷积神经网络的结构 9

2.2.3 前向传播和反向传播 11

2.3 深度学习在手势识别中的研究 12

2.4 本章小结 12

第3章手势识别预处理 13

3.1 手势图像的采集 13

3.2 手势分割 14

3.2.1 RGB颜色空间 14

3.2.2 HSV颜色空间 15

3.2.3 YCrCb颜色空间 16

3.2.4 肤色模型的选择 17

3.3 形态学处理 18

3.4 图像滤波 18

3.4.1 均值滤波 18

3.4.2 中值滤波 19

3.4.3 高斯滤波 20

3.4.4 双边滤波 21

3.5 本章小结 21

第4章手势识别 22

4.1 手势数据集的建立 22

4.2 VGGNet-16模型 23

4.3 模型的训练过程 24

4.4 结果分析 26

4.5 手势控制音乐播放器的设计及实现 27

4.6 本章小结 28

第5章总结与展望 29

5.1 总结 29

5.2 未来展望 29

参考文献 30

致谢 31

第1章绪论

1.1 研究背景及意义

二十世纪中期以来，科学技术的迅猛发展，人们的生活方式也随之不断发生着变化，计算机技术的进步，为我们的生活创造了更多便利的条件。其中人与计算机进行信息交流的过程与人机交互技术（Human Computer Interaction Techniques）息息相关，人机交互技术已经成为了我们日常生活中不可或缺的一部分。

人机交互技术是指通过计算机的输入设备或者输出设备，以一种有效的方式实现人与计算机之间的信息交流的技术。最初的的人机交互方式也称作命令行式交互，使用者要学习大量的高级语言才能与计算机进行交流，这种方式非常的不直观。近代以来，人机交互发展成为了一种可视化的图形界面，这种方式更受大多数人的欢迎，更加的便捷。“人类自然形成的与自然界沟通的认知习惯和形式必定是人机交互的发展方向。”微软创始人比尔·盖茨曾说过。因此，人机交互的要朝着人与计算机的自然交流这个研究方向去发展，让计算机能听、能看、能说、能感觉。当前比较引领潮流的人机交互方式主要有触摸式交互、体感交互、无声语音识别、语音交互等方式。其中，体感交互也称为手势识别技术。这种交互方式以其直观、便捷、简单等优点成为当前人机交互的重要方式。

在日常生活中，我们常常使用各种手势来表达自己的意思和情感。手势（Gesture）是指人使用手臂所表现的具体动作与体位，这种表达方式往往有着简洁、形象、清晰、使用简单等特点。由于人手的活动幅度大，且能根据人自己的意识做出运动，这样就能够表达出很多种含义，因此手势非常的灵活，表现力也很大，可以作为智能人机交互的重要媒介。

在人机交互领域，手势识别（Gesture Recognition）技术与图像处理、人工智能、神经识别等都密切相关，是一门新兴技术的发展产物。除了人机交互外，手势也是聋哑人与正常人进行交流的重要途径，但是很多情况下，正常人并不具备手语理解能力，如果能够利用计算机对聋哑人的手语进行翻译，将会大大提高聋哑人与正常人的交流效率。另外，手势识别还可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面，手势的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此，手势识别的研究在当前非常有意义。

手势识别可分为基于外部设备的手势识别和基于计算机视觉的手势识别两类。手势识别技术在当前仍是一个极其具有挑战性的研究课题。

1.2 国内外研究现状及发展趋势

1.2.1 国内外研究现状

早在九十年代英国和美国的研究学家就已经手势识别的研究产生了兴趣，早期的手势识别主要是借助外部设备进行的，比较典型的有数据手套等，如图1.1所示。数据手套是ATamp;T公司的Grimes在1983年发明的[^[1]]，由多个传感器组成，使用者只需要戴上数据手套后，计算机就能够获取手、关节等的位置信息，这样就达到了识别手势的目的；1984年，VPL公司推出的数据手套能够利用光线弯曲传感器检测出手指的弯曲程度[^[2]]；吴江琴等根据汉语手指字母的特点提出了一种基于神经网络和学习判定树的混合方法[^[3]]，从而利用数据手套完成了汉语手指字母的手势识别，识别率达到了98%。在这一阶段利用数据手套等外设进行手势识别的研究已经非常成熟，且都能保证较高的识别率，也能满足实时性的要求。然而，数据手套价格昂贵，导致这类方法的成本过高，而且还要求使用者戴上专用的复杂的数据手套，操作非常的不方便，人机交互也不自然。

图1.1 数据手套

近些年来，对手势识别的研究方向大多是基于计算机视觉技术的，如图1.2所示为Kinect和MaxMsp交互的场景。这种手势识别的方法一般是利用摄像头来采集手势图像，然后利用计算机视觉技术进行手势图像的研究和识别。Starner在研究美国手语时首次用到隐马尔科夫模型（HMM）来建立手势分类引擎；Nasser H. Dardas等人利用肤色检测分割出手势，对于选取的10种复杂背景下的手势图像，用结合SIFT和支持向量机（SVM）的方法进行分类，从而识别出手势，识别率达96%；清华大学祝远新等也提出了一种手势识别技术，首先根据手势的表观特征建立了动态手势的表观模型，后来为了对复杂背景下的动态手势分割更加精确，又提出了基于运动、形状和颜色等多模式信息分层融合的策略[^[4]]，识别率达到了95.6%。另外，微软在2010年正式发布Kinect深度传感器，它能够实时识别用户的手势。此后，一些研究学者将其运用到手势识别上。Wang等人基于深度信息进行手势跟踪，从而完成对手势的轨迹标记；Wu等人将深度信息与彩色信息结合进行手势分割，从而完成手势识别。基于计算机视觉的手势识别方法在录制手势的时候只需要用到摄像头，对用户没有太多的限制，人机交互也相应比较自然，识别率也比较高，但是若要处理大量数据，可能算法耗费的时间比较长，处理起来也比较复杂，因此，未来还要完善该方法。

图1.2 Kinect和MaxMsp交互

随着计算机技术的不断发展，一些研究者开始对基于深度学习的手势识别进行了研究。其中，卷积神经网络（CNN）就是深度学习最常用的一种算法。Tivive和Bouzerdoum使用卷积神经网络进行了人脸识别，试验系统的鲁棒性很强；蔡娟等人提出了一种基于比较浅层的卷积神经网络的方法，进行了手势识别研究并取得了较高的识别率。总之，基于深度学习的手势识别研究目前还在不断探索中。

1.2.2 发展趋势

不论是在我们的生活中或是科学研究中，手势识别都具有极其重要的意义。早期的基于数据手套的手势识别的识别精度非常高，但是数据手套价格比较昂贵，使得该技术不能普及。而基于计算机视觉的手势识别虽然满足了人机交互的自然性，但是最终的识别率及识别速度可能会受到算法的影响。近些年来，深度学习逐渐引起广大学者们的研究兴趣，这对手势识别而言，是一个巨大的机遇。基于深度学习的手势识别研究将会是未来手势研究的一个重要方向。

1.3 本文主要研究内容

本文主要以深度学习理论中的卷积神经网络为核心，研究它的工作原理，并将其应用于手势识别领域。首先阐述了手势识别的国内外研究现状，然后对深度学习框架里的几种常见网络的结构进行了分析，选择了卷积神经网络作为本文研究的重点。之后说明了手势识别的步骤，从预处理到手势分割、手势识别等，得到了一种实时性很好的网络模型。最终将该方法训练手势模型实现对音乐播放器的控制。

其中，本文重点研究了基于深度学习的手势识别方法，首先要用摄像头获取手势信息，然后调用OpenCV库函数对手势图像进行预处理，以消除图像中的噪声以及增强图像的质量，之后就可以将预处理后的手势图像输入到网络中选择手势模型对手势进行分析识别。如图1.3所示是一个完整的基于深度学习的手势识别系统框图。

图1.3 基于计算机视觉的手势识别系统

1.4 章节安排

本文共分为五章，章节安排如下：

第一章主要阐述了手势识别课题的研究背景及意义，还分析了当前手势识别国内外研究现状以及未来的发展趋势。手势识别作为一种人机交互方式为我们的生活带来了很大的方便，这在未来仍是一个极具挑战性的研究方向。

第二章主要阐述了深度学习理论，对常见的几种深度学习网络结构进行了说明，主要有循环神经网络和卷积神经网络，对这两种神经网络进行了对比分析。还将深度学习理论与其他手势识别的研究方法做了对比，最终选择了深度学习框架里的卷积神经网络用于本文研究的手势识别。

第三章主要阐述了手势识别的预处理流程。预处理过程主要就是调用OpenCV库函数；预处理的主要步骤包括手势分割、形态学处理、图像滤波等，其中最重要的就是手势分割，本文选择了基于肤色检测的分割方式，还对三种常见的基于肤色模型的颜色空间进行了介绍。

第四章主要阐述了手势识别的主要过程。首先说明了本文的手势数据集的建立过程，之后介绍VGGNet-16模型的结构特点以及如何利用建立好的数据集训练该模型，并对手势识别的实验结果进行了分析。最后还在本设计的基础上进行了应用设计，用手势来控制音乐播放器，以实现音乐的播放/暂停以及下一首播放等过程。

第五章主要是对本文研究的内容进行了一个总结，并指出本设计有哪些不足的地方，以及下一步的工作展望。

第2章深度学习

深度学习（Deep Learning）是机器学习中的一个分支。深度学习主要是建立模型来模拟人类大脑的神经网络结构，从而在处理图像、声音、文本等信号时，能够无监督学习有用的特征，提升最终分类或者预测的准确性[^[5]]。在机器学习领域，反向传播算法（BP算法）是最早提出的，它能够让训练好的人工神经网络模型进行预测。此外，还有一些其他的机器学习模型，有高斯混合模型（GMM）、最大熵方法（LR）、支持向量机（SVM）等。这种机器学习的方法实际上属于浅层学习，浅层学习是机器学习的第一次进步。深度学习的概念是在2006年由Hinton正式提出来的，并且提出要采用无监督的训练方法。这种训练方法得到的初始值较好，而且可以避免BP算法的梯度扩散产生的影响，一度引起了大家的浓厚兴趣，使得深度学习成为机器学习的第二次进步。Microsoft还通过与Hinton合作利用深度学习识别语音系统，获得了巨大的进展。深度学习受到了越来越多的关注，在图像处理、目标识别等领域发挥了非常大的作用。

深度学习模型的结构与神经网络的结构非常相似，都是分层次的。当前常见的深度学习模型有深度置信网络（DBN）、循环神经网络（RNN）、卷积神经网络（CNN）等。

2.1 循环神经网络

传统的神经网络模型是从输入层到隐含层，再从隐含层到输出层的，层与层之间采用的是全连接的方式，同时每层之间的节点是无连接的。但是这种模型对于某些问题的处理是有着局限性的。例如，由于一个句子中前后单词之间是有关联的，当我们要预测句子的下一个单词时，往往要联系前面的单词，这时候就需要用到循环神经网络（RNN）了。RNN模型与传统的神经网络模型结构是相似的，但是不同的是RNN的隐含层之间的节点是有连接的，而且隐含层的输入包括输入层的输出和上一时刻隐含层的输出这两部分。因此，RNN能够记忆之前的数据信息，并将其作用到当前的输出中。

RNN包括三个部分，分别是输入层、隐含层和输出层，而且隐含层有着递归的特点。RNN模型结构如图2.1所示，其中图2.1左边是RNN模型基本图示，将其按时间序列展开，就得到了右边的结构。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。

注册

找回密码

基于深度学习的手势识别方法研究毕业论文

Abstract

第1章绪论

1.1 研究背景及意义

1.2 国内外研究现状及发展趋势

1.2.1 国内外研究现状

1.2.2 发展趋势

1.3 本文主要研究内容

1.4 章节安排

第2章深度学习

2.1 循环神经网络

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

基于深度学习的手势识别方法研究毕业论文

Abstract

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状及发展趋势

1.2.1 国内外研究现状

1.2.2 发展趋势

1.3 本文主要研究内容

1.4 章节安排

第2章 深度学习

2.1 循环神经网络

您可能感兴趣的文章

最新文档

推荐栏目

第1章绪论

第2章深度学习