基于机器学习的视频手语翻译机设计与实现毕业论文
2022-01-09 19:17:15
论文总字数:20199字
摘 要
聋哑人在进行日常交流时需要用到手语,这就导致了手语的重要地位。在我国大概有 2700 万不等的听力残疾者,对于他们,手语交流的不便造成了社会劳动力的严重浪费。最近,由中国手语协会发布出台了一种衡量的统一标准,对于不健听人士与正常人之间的沟通逐渐简单融洽起来,因此手语翻译系统的发展可以帮助聋人更好的融入社会。
本课题拟应用I3D(Two-Stream Inflated 3D ConvNet)模型,即双流膨胀卷积3D神经网络,它是一种基于2D神经网络的增强版。基础结构为最新的图片分类模型,将卷积核(kernel)膨胀与3D神经网络结合,并且把利用图片进行分类的卷积核和池化核都扩展为3D,实现无缝的时空特征提取器在视频中的学习。同时,在将基于minikinetics训练好的模型运用到其他数据集时,它也有优异的性能展示,所以将其运用到手语视频的识别中,并取得比较好的效果。
本文的目标是完成手语的识别与翻译,大致过程分为四个模块,包括:视频预处理模块,图像分割模块,特征提取模块和手语识别模块。主要工作流程为:首先获取一个手语视频数据集,然后对其进行处理,一部分用作训练集留一部分用作测试集。将获取到的视频用Python进行视频分割得到视频帧,再裁剪为合适的大小并进行归一化,这就是图片的预处理过程。之后将裁剪归一化处理后的图片送入I3D神经网络进行训练,利用多层卷积,最大池化和全连接来进行图像特征的提取。最后进行手语识别,将视频送入训练好的神经网络,得到与之相对应的类别,并用Tensorboard运行得到训练的可视化模型。而最后的输出文字与对应手语视频相符合,表示取得不错的结果。
关键词:手语识别 机器学习 CNN 数据集 I3D
Character detection and recognition of complex charts
Abstract
Deaf-mute people need to use sign language in their daily communication, which leads to the importance of sign language. There are about 27 million people with hearing disabilities in my country. For them, the inconvenience of sign language communication has caused a serious waste of social labor. Recently, the Chinese Sign Language Association issued a unified standard for measurement. Communication between unhealthy people and normal people has gradually become simple and harmonious. Therefore, the development of the sign language translation system can help deaf people better integrate into society.
This topic intends to apply I3D (Two-Stream Inflated 3D ConvNet) model, that is, dual-stream dilated convolution 3D neural network, which is an enhanced version based on 2D neural network. The basic structure is the latest image classification model, which combines the expansion of the convolution kernel (kernel) with the 3D neural network, and expands the convolution kernel and pooling kernel that use pictures for classification to 3D, achieving a seamless spatiotemporal feature extractor Learn in the video. At the same time, when the model trained based on minikinetics is applied to other data sets, it also has excellent performance display, so it is applied to the recognition of sign language videos and achieves better results.
The goal of this article is to complete the recognition and translation of sign language. The general process is divided into four modules, including: video preprocessing module, image segmentation module, feature extraction module and sign language recognition module.
The main workflow is: first obtain a sign language video data set, and then process it, a part of it is used as a training set and a part is used as a test set. The obtained video is segmented by Python to obtain video frames, and then cropped to a suitable size and normalized. This is the preprocessing process of the picture. After that, the cropped and normalized pictures are sent to the I3D neural network for training, and multi-layer convolution, maximum pooling and full connection are used to extract image features. Finally, sign language recognition, send the video to the trained neural network, get the corresponding category, and use Tensorboard to run the trained visual model. The final output text is consistent with the corresponding sign language video, indicating good results.
Key Words: Sign language recognition; Machine learning; CNN; Dataset; I3D
目 录
摘要 I
Abstract II
第一章 引言 1
1.1 视频手语翻译机设计与实现的意义 1
1.2 手语识别与翻译的研究现状 1
1.3 本文所采用的手语翻译与识别的方法 3
1.4 本文的章节安排 3
第二章 手语数据的获取和预处理 5
2.1 开发环境介绍 5
2.1.1 Python简介 5
2.1.2 Visual Studio Code简介 5
2.2 手语视频的获取 6
2.3 手语视频的预处理 7
2.3.1 将视频数据剪切成图片 7
2.3.2 图片剪裁 8
2.3.3 图片归一化处理 9
2.4 本章小结 9
第三章 手语数据的特征提取 10
3.1 I3D模型简介及其优势对比 10
3.1.1 I3D模型简介 10
3.1.2 I3D模型与其他模型对比 10
3.2 I3D卷积神经网络主要结构 12
3.3 本章小结 15
第四章 手语数据的分类与识别 16
4.1 Tensorboard的可视化成果展示 16
4.1.1 TensorBoard简介 16
4.1.2 使用TensorBoard使训练结果可视化 16
4.2 I3D神经网络模型训练结果展示 17
4.3 本章小结 20
第五章 总结与展望 21
5.1 总结 21
5.2 展望 21
参考文献 23
致谢 25
第一章 引言
1.1 视频手语翻译机设计与实现的意义
聋人之间交流的主要方法是依靠于手语进行的。与手势不同,手语是一组由手形,面部表情和姿势组成的手语通信系统,但大多数听得到的人却看不懂手语,这就在就业问题、学习问题等各个方面对听力残疾者造成了非常不好的影响。在中国有着很多听力不健全者,手语交流的障碍严重浪费了社会劳动力。近几年中国手语出台了统一的标准,聋哑人与听众之间的交流正在逐步组织起来,并有一定的规则可循。因此手语翻译技术又产生了广泛的应用价值,而视频手语翻译机的设计与实现在提升聋人融入社会的程度方面有了很大助益,也在加速国家通用手语的推广进程方面有着显著帮助。
总的来说,手语识别通常是通过不同的数学算法对行为和语言进行的一种转换,也是对触觉和视觉的转换,并且是一种允许不健听的人和听众进行交流的技术。通过自动识别,可以将听力障碍者的手语视频翻译成用正常母语书写的完整句子,从而即使是不懂手语的普通人也可以与聋人顺利交流。从另一个角度看,手语识别的实现,也可以增加听力障碍者与外界交流的机会,是一个互有裨益的实验项目。
1.2 手语识别与翻译的研究现状
目前,国内外手语识别研究较多的还是孤立的手语识别,比如将采集到的静态或动态的手语转化成单独的词语,这是构建完整连续的手语翻译的前提和基础,具有重要的作用。然而有关连续手语识别的研究较少,由于其对手语边界的检测一直是个难点,即难以进行时间分割,但其应用更具有实际意义,它可以帮助建立聋人和正常人之间的沟通渠道,使得双方的交流更加简洁,流畅。
请支付后下载全文,论文总字数:20199字