LSTM模型的研究与实现毕业论文

2020-08-20 20:01:40

摘要

本文研究的LSTM模型是在传统RNN模型的基础上建立的神经网络模型,它改进了RNN模型所存在的梯度消失问题,以门控结构来解决输入输出权值矛盾,达到长时记忆的功能,将LSTM模型与隐马尔科夫结合形成的LSTM-HMM模型是以声学统计为基础的模型,它比传统的GMM-HMM模型在语音识别上有着更高的准确率.

本文以此为切入点,主要工作内容如下:

分别对RNN模型,LSTM模型,HMM模型的结构进行了细致的剖析,并且研究了它们的前向反向算法,以及模型训练的思路.

2.在LINUX环境下安装语音识别工具箱Kaldi,配置运行环境,下载部分Timit语音数据库材料,制作训练样本,记为TY.

3.在模型研究的基础上Kaldi对GMM-HMM,DNN-HMM,LSTM-HMM分别进行GPU模型训练,保存训练结果.

4.最后对模型训练的结果进行分析,对比LSTM与传统GMM的语音识别准确率.并对LSTM模型的变种GRU作一些分析.

关键词:GMM模型 LSTM模型 HMM模型语音识别 Kaldi

第1章绪论 1

第2章模型研究 2

2.1RNN模型 2

2.1.1(recurrent neural network,RNN）引见: 2

2.1.2NN前向反向传播算法和梯度求解 3

2.1.3RNN的模型训练： 4

2.2LSTM模型 5

2.2.1 LSTM模型结构剖析 6

2.2.2 LSTM前向传播算法 9

2.2.3 LSTM反向传播算法推导关键点 10

2.2.4.LSTM对模型的设计 10

2.2.5.LSTM训练的核心思路和推导 11

2.3HMM模型 12

第3章实验工具介绍 15

第4章数据准备 16

4.1、目录结构 16

4.2、文件类型 16

第5章 GMM-HMM模型训练 18

第6章 LSTM模型编码实现 20

6.1单元构造 20

6.2输入预处理 21

6.3LSTM循环 21

6.4损失函数计算 22

6.5梯度计算 22

6.6梯度修剪 23

6.7优化参数 24

第7章实验结果分析 26

7.1音素决策树 26

7.2训练数据分析 27

第8章结论 29

致谢 30

参考文献 31

第1章绪论

如今社会的发展越来越趋向于人工智能,各种智能应用百花齐放,语音识别就是其中相当热门的一个发展方向,而LSTM则是语音识别中当下最成功的技术之一.

传统模型是GMM-HMM。传统之所以称之为传统,是因为它已经不能满足当下发展迅捷的潮流.我们都知道深度学习,他们研究的DNN-HMM模型比之传统有很大的进步，语音识别的准确率大约能够提升20-30百分点。对于语音识别来说,20%已经是翻天覆地的变化了.DNN的长处很明显,它不仅能在原有基础上增加神经网络的层数也能增加节点数，这么一来,对冗杂数据的处置能力大大提高，但一切模型都不会是完美的,DNN也存在有一些显而易见的不足，取其中一点来说吧,合帧,DNN的合帧是为了解决上下文相关信息它对当前语音帧的影响，这种方法并不好。所以新的自回归神经网络（RNN）又出现了,RNN把上面的问题至少解决了，序列数据间是相关的,RNN就利用了这一点。但RNN又有问题暴露出来了,这该怎么办呢?于是发展终于来到了这一步,长短时记忆网络（LSTM-RNN）出现了，经过这两年的发展更是延伸出多种多样的子模型，例如双向长短时记忆网络（BLSTM-RNN）这种模型。正因如此LSTM模型的研究能让我们快速进入人工智能的领域.不管是模型本身还是它的应用以及拓展都对语音识别乃至人工智能产生重大的影响.

本文以LSTM模型为切入点,通过语音识别工具箱Kaldi的帮助,对几大模型的样本分别进行训练,并由此研究几大模型的特性,实现LSTM模型在语音识别过程中的音素识别功能增强.对比传统的模型,LSTM优势明显,在具体实现过程中可以看到LSTM在梯度问题上的优秀解决能力,在这一点上RNN尤有不足.模型的更新换代总是日新月异的,在LSTM模型正火热的时候,又有无数的衍生模型如雨后春笋冒了出来,例如GRU,BLSTM-RNN,本文的研究旨在对LSTM模型进行结构剖析,并且选取其在语音识别方面进行实现,以此来让人对LSTM模型有更深的理解.

第2章模型研究

2.1RNN模型

2.1.1(recurrent neural network,RNN）引见:

即递归神经网络,这种神经网络有它独特的反馈结构,这种反馈结构支撑着它将输出和当前输出,网络权值,之前的网络输出三项相关联,从而构成一种递归的神经网络.RNN的建模方式很简单但也不容易理解,重点在于自连接潜伏层对时间建模.从另一方面来阐述,即潜伏层的直向反馈,进入了输出端,也进入了下一时间的潜伏层.它的网络结构图如下图所示:

如果单看回环形式还不足以让你明白它的结构方式,那么来看看下图,用两个时间步来交叉展开,并且舍弃了环形结构,是不是更容易理解了呢.

有些地方把递归网络称为深度网络,这种叫法也是可行的,因为在输入和输出之间产生了差距,这种差距也叫深度,而且每个时间步可以被认为是一个层,层与层之间同样也有着深度存在.

PS：我们提到了权重,其实权重从输入到潜伏和潜伏到输出这个过程在每个时间步上面是相同的；

2.1.2NN前向反向传播算法和梯度求解

神经网络是所有建立其上模型的基础,所以不得不先将它研究清楚,为了方便讲述,我们可以把网络像下面一样按时间来展开:

（1）前向传播：

这里有三个下标 i ， h ，k 我来解释一下,i表示的是输入层，输入层从上层往后叠加,h表示的是潜伏层，潜伏层从后面一层起算,k表示的是输出层，k的值并没有什么影响,但它是i和h的关联反馈值,a表示的则是未激活值，相应的b就表示激活值；

注册

找回密码