基于深度神经网络的语音识别系统设计文献综述
2020-04-15 15:43:41
1.1 选题背景及意义
语音识别是将人类所发出的语音转化为文字或符号的技术。从40年前开始对声学特征的抽取.到如今使用深度神经网络作为主体的自动语音识别系统,语音识别技术已经逐步完善。但语音识别技术也面临着一些问题.比如在语音识别中单纯地提取出声音频谱作为特征并不能达到很高的识别率.模型具有较高的时间或空间复杂度会限制语音识别技术的应用以及导致环境噪声问题等。
基于深度神经网络的语音识别系统具有很强的非线性处理能力,相比于高斯混合模型,其可以显著提高系统性能并减少时间和空间复杂度。在性能.上可以通过无监督训练的方法提升抗噪性能,Hes-sian Free优化可以减少训练过程消耗的时间刀;异步随机梯度下降法习、随机数据丢弃,基于平均随机梯度下降法的单次迭代算法司、奇异值分解、节点修剪( Node-pruning)刀等方法都可以在一定程度上减少时间和空间的复杂度。深度神经网络在高斯混合模型作为基础上与隐马尔科夫模型( Hid-den Markov Model, HMM)相结合,在连续语音识别上得到了很好的实验结果。此后,研究者发现即使没有高斯混合模型作为基础,深度神经网络同样可以取得良好的性能。另外深度神经网络还被应用于自然语言理解。
语音识别系统在不同场合中需要不断提高本身性能.而且需要在保证性能的前提下做到经济合理。深度神经网络复杂度较高,模型复杂,一般需要较高的硬件配置。将深度神经网络与特征提取技术和隐马尔科夫模型相结合,通过奇异值分解和重构的方法对模型进行了降维.所构建的自动语音识别系统同样具有较高的性能.识别错误率也较低。
1.2 国内外研究的现状
进入二十一世纪,随着计算机硬件的发展,语音识别技术得到了快速发展,NVIDIA公司大规模并行计算而开发了强大的处理器,以及开发的CUDA并行计算架构,使得基于深度神经网络的语音识别系统训练解码时间大大减少,大规模语音数据用于系统训练得到了技术保障,从而促进了深度学习的在语音识别技术的发展。外各大公司积极研究机构比如谷歌, IBM,苹果,微软,多伦多大学等,都进行了大量实验以及商业化的应用研究,并取得了卓越成就。比较有代表性的成果有,微软研究院的Li Deng等人成功将多层结构的条件随机场应用在了语音识别技术中心;将深度神经网络运用到隐马尔科夫模状态输出的概率,对其进行建模,构成DNN-HMM系统,与传统的GMM-HMM相比取得了很好的效果,这是近年来语音识别技术上实现的一个突破。
我国语音识别技术I作的研究起步于二十世纪五十年代,尤其近年来,发展很快,研究水平也取得了很大的进步。从1987年以来,因家开始执行863计划,国家863 专家组为语音识别技术的研究每两年进行一次立项。 现如今,我国语音识别技术基本与国外同步,并且在中文语音识别技术上结合自己的特点和优
势,达到了国际先进水平。中科院声学所,清华大学等科研机构都有自己的实验室进行语音识别技术的研究。国内的公司比如科大讯飞,百度等,也都在进行着实验,使得语音识别技术商用化。其中,百度公司在2013年成立了深度学习研究院,使得深度学习通过很多方式得到拓展.2014年12月,百度首席科学家吴恩达(AndrewNg)声称,百度在语音识别上取得了重大突破。百度最新的技术称之为深度语音识别(Deep Specch) 16l, 这是深度学习这项通用基础技术在语音上的应用。百度公司通过从9600个人收集了近7000小时的语料数据,然后百度团队使用了一种叫做“叠加”(Superposition)的物理学原埋,在数据样本中加入了十五种比如餐厅,地铁等背景噪声,让数据样本扩大到10000小时,然后让语音识别系统去识别这些语音信息,百度深度语音识别技术运用了无监督机器自动学习,利用百度超强的新计算机系统的GPU进行加速支撑,该系统的运算速度是吴恩达在斯坦福大学和谷歌工作期间所开发系统的40倍,使得运算效率得到了重大提升,最终使得识别范围内允许的词错率降低了10%,优于谷歌Speech API、 Wit.AI、 微软BingSpeech以及苹果Dictation。