语音识别中基于深度学习的声学模型研究开题报告
2021-03-11 00:17:53
1. 研究目的与意义(文献综述)
1.1 国内外研究现状语音识别的研究自20世纪50年发展起,在近二十年来,语音识别技术有了显著的提升,如今以苹果手机的siri,科大讯飞的语音输入法为代表,被众多专家学者认为是21世纪10大最具发展潜力的热门学科之一。如今语音识别作为模式识别的一个分支,与机器学习中的深度学习相结合,通过计算机将语音自动识别成文本,即自动语音识别(automatic speech recognition ,asr)技术也成为了国内外许多专家学者备受追捧的研究方向。早期的语音识别是基于gmm-hmm[a1] (gaussian mixture model -hidden markov model)模型的主流框架,以剑桥语音识别组推出的htk工具包为主要研究手段,此后语音技术的发展一直趋于缓慢。2006年,hinton等人提出将深度置信网络(deep brief network,dbn)应用于语音识别的思想为该技术的研究开启了另一个春天,研究发现基于dnn-hmm(deep nerual network-hidden markov model)模型的识别框架其性能较gmm-hmm模型提高了10%,突破了传统语音识别中声学模型的瓶颈,革新了人们对于神经网络(nerual network ,nn)的认知。随着语音识别和深度学习的发展,dan povey团队编写的kaldi语音识别工具加入了深度神经网络(dnn deep nearul network)的分类器并在htk工具包的基础上做出了完善,为人们研究基于深度学习的语音识别技术提供了很好的实验平台。
基于深度学习的语音识别技术近十年来以神经网络作为声学模型,通过不断改进神经网络的结构和优化模型算法来提升语音识别性能。2009年,hinton和他的学生d. mohamed将深度神经网络在小词汇量连续语音识别数据库timit进行测试获得成功。微软研究院俞栋、邓力在2012年发表的论文中,首次提出的独立上下文(context-dependent ,cd)模型并结合数据预训练的方法初始化神经网络减少泛化误差,在大词汇量连续语音识别任务(lvsr large-vocabulary speech recognition )上获得突破。2013年, hinton受到递归神经网络(recurrent nerual network,rnn)在手写文本识别上的启发,于发表的论文中将rnn用于识别长时上下文序列,同样在数据库timit进行测试,其识别错误率最低降至17.7%,该模型通过递归的思想弥补了dnn在挖掘时间序列上的不足。跟随着hinton的脚步,许多学者在早期提出的rnn结构基础上做出改进,提出将双向循环神经网络(bidirectional recurrent neural network,brnn)用于语音识别,随后发现rnn很容易出现梯度消失,且并不能解决长时间依赖的问题。为了解决这一问题,人们提出将一种特殊的rnn,长短期记忆模型(long short term mermory network,lstm)用与长时间序列识别,弥补了rnn的不足。2015年vijayaditya peddinti所在的团队提出了将时延神经网络(time delay nerual network,tdnn)来弥补rnn在模型结构复杂和模型训练时间过长的缺点,将该模型用于识别长时间上下文序列,并在lvsr测试发现文字差错率(word error rate,wer)降低2.6%。
在2016年的国际声学、语音与信号处理会议(international conference on acoustics, speech and signal processing,icassp)上,中国科大讯飞首次提出前馈型序列记忆网络fsmn (feed-forward sequential memory network)结合点对点(end to end)模型较rnn在模型训练效率和稳定性有了很大的提升。受到fsmn模型通过长短语音上下文信息来决策当前语音帧信息的启发,该公司结合卷积神经网络(convolution nerual network,cnn)提出了全新的深度全序列卷积神经网络(deep fully convolutional neural network,dfcnn)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。随着国内外众多的专家学长们的不断探索和研发,使得基于深度学习的语音识别技术也在日趋日趋成长,在不断的改善我们的生活的同时,对人们的未来也有着深远影响。
2. 研究的基本内容与方案
2.1 研究内容和目标本次设计将从理论上讨论传统gmm-hmm、dnn-hmm声学模型中涉及的em(expectation maximization algorithm)算法,反向传播算法;讨论网络层训练算法有监督和无监督算法的对比;讨论tdnn结合基于受限玻尔兹曼机(restricted boltzmann machine,rbm)的预训练加微调的网络训练方式;讨论结合ctc(connectionist temporal classification)算法的lstm优化的网络模型结构;从实验上将从数据准备、特征提取、模型训练三个方面详细论述基于kaldi中nnet3的模型训练实现过程。
2.2 拟采用的技术方案
1.实验平台
3. 研究计划与安排
第1周—第3周 搜集资料,撰写开题报告;
第4周—第5周 论文开题;
第6周—第12周 撰写论文初稿;
4. 参考文献(12篇以上)
【1】povey d, ghoshal a, boulianne g, et al. the kaldi speech recognition toolkit[c]//ieee 2011 workshop on automatic speech recognition and understanding. ieee signal processing society, 2011 (epfl-conf-192584).
【2】dahl g e, yu d, deng l, et al. context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[j]. ieee transactions on audio, speech, and language processing, 2012, 20(1): 30-42.
【3】deng l, hinton g, kingsbury b. new types of deep neural network learning for speech recognition and related applications: an overview[c]//acoustics, speech and signal processing (icassp), 2013 ieee international conference on. ieee, 2013: 8599-8603.