基于循环神经网络的语音识别方法设计文献综述
2020-04-15 15:43:56
近几年“人工智能”话题持续火热,其中,让机器听懂人类说话是实现机器智能的一个重要部分,机器语音识别的发展,让机器在识别二进制数的“一维语言”和识别高级语言的“二维语言”提高至识别语音的“三维语言”,作为人工智能的关键技术之一,人机语音交流技术一直以来备受各国科学界的关注,从智能手机的出现,手机语音助手一直是智能手机智能的一大表现,其技术也一直得到各手机厂商的研发投入和更新,听懂人说话已经是家常便饭,帮助人类完成部分操作,可能有的人使用频率较低,但不可否认的是,该技术已经走进人们的生活,也正在开发其在更多场合的功能,例如医院、公安局、超市等场合。
语音识别技术可以按照任务的不同分为四个方向:
⑴说话者识别:主要是通过声音识别说话人的身份,由于每个人的生理特征不同,每个人的声音都不一样,而且由于每个人的说话的方言、韵律、腔调影响,可以实现说话人的识别,生活中,支付软件支付宝已经把声纹识别加入安全锁的一部分。
⑵关键词检出:在一些特定的场合,只关注包含特定关键词的句子,实现特定功能。
⑶语言辨别:通过一些语音片段实现判断其语言所属种类。
⑷语音识别:也是人们常说的语音识别,以人们说的话为识别对象的识别技术,可以将其转换为文本或特定操作指令。
语音识别技术可以将人类语音识别,通过建模3D图像编译手语手势,并实时进行翻译,实现正常人与聋哑人沟通交流,还可以把说中文的人说话翻译成其他语言,实现翻译功能,包括方言识别、翻译;出国旅游,语言不再是障碍,医院等特殊场合实现指路、事务咨询功能。
语音识别正因其广泛用处日益受到科学各界重视,虽语音识别技术还未完全开发,识别准确度也有待提高,但人们已经意识到其功能性及便捷性,我们完全有理由相信,它可以为人类生活带来天翻地覆的改变。
1982年,美国学者John Hopfield基于Little (1974) 的神经数学模型使用二元节点建立了具有结合存储(content-addressable memory)能力的神经网络,即Hopfield神经网络 。Hopfield网络是一个包含外部记忆(external memory)的循环神经网络,其内部所有节点都相互连接,并使用能量函数进行学习 。
1986年,Michael I. Jordan基于Hopfield网络的结合存储概念,在分布式并行处理(parallel distributed processing)理论下建立了新的循环神经网络,即Jordan网络 。Jordan网络的每个隐含层节点都与一个“状态单元(state units)”相连以实现延时输入,并使用logistic函数(logistic function)作为激励函数 。Jordan网络使用反向传播算法(Back-Probagation, BP)进行学习,并在测试中成功提取了给定音节的语音学特征。之后在1990年,Jeffrey Elman提出了第一个全连接的循环神经网络,Elman网络 。Jordan网络和Elman网络是最早出现的面向序列数据的循环神经网络,由于二者都从单层前馈神经网络出发构建递归连接,因此也被称为简单循环网络(Simple Recurrent Network, SRN)。
在反向传播算法的研究受到关注后,学界开始尝试在BP框架下对循环神经网络进行训练 。1989年,Ronald Williams和David Zipser提出了循环神经网络的实时循环学习(Real-Time Recurrent Learning, RTRL)。随后Paul Werbos在1990年提出了循环神经网络的随时间反向传播(BP Through Time,BPTT),RTRL和BPTT被沿用至今,是循环神经网络进行学习的主要方法 。
1991年,Sepp Hochreiter发现了循环神经网络的长期依赖问题(long-term dependencies problem),即在对序列进行学习时,循环神经网络会出现梯度消失(gradient vanishing)和梯度爆炸(gradient explosion)现象,无法掌握长时间跨度的非线性关系。为解决长期依赖问题,大量优化理论得到引入并衍生出许多改进算法,包括神经历史压缩器(Neural History Compressor, NHC)、长短期记忆网络(Long Short-Term Memory networks, LSTM)、门控循环单元网络(Gated Recurrent Unit networks, GRU)、回声状态网络(echo state network)、独立循环神经网络(Independent RNN)等。
在应用方面,SRN自诞生之初就被应用于语音识别任务,但表现并不理想 ,因此在二十世纪90年代早期,有研究尝试将SRN与其它概率模型,例如隐马尔可夫模型(Hidden Markov Model, HMM)相结合以提升其可用性 。双向循环神经网络(Bidirectional RNN, Bi-RNN)和双向LSTM的出现提升了循环神经网络对自然语言处理的能力,但在二十世纪90年代,基于循环神经网络的有关应用没有得到大规模推广。二十一世纪后,随着深度学习方法的成熟,数值计算能力的提升以及各类特征学习(feature learning)技术的出现,拥有复杂构筑的深度循环神经网络(Deep RNN, DRNN)开始在自然语言处理问题中展现出优势,并成为语音识别、语言建模等应用的重要算法。
2. 研究的基本内容与方案
{title}众多科研人员经过多年研究,基于神经网络的语言模型已经在一定程度上让语音识别技术的性能更优秀。本设计将循环神经网络应用至现有数据上,搭建语音识别平台,使用现有的数据训练,并达到一定的识别率。
本设计将会介绍循环神经网路的发展进程、发展现状及其工作原理,也会根据文献介绍其算法结构,对循环神经网络进行自我学习认识,参考学术期刊文献,选取合适的框架,最后实现语音识别。
结合实际情况分析如何在合适场景使用语音识别技术和方法,用UML完成关键算法的概要设计,选取合适的框架实现该识别方法,对训练或识别过程进行加速与优化。
3. 参考文献 [1]玄扬. 基于LSTM神经网络的语音模型优化研究[D].广西师范学院,2018.
[2]胡涛. 基于卷积神经网络的异常音频事件检测的研究[D].安徽大学,2018.
[3]古典. 语音识别中神经网络声学模型的说话人自适应研究[D].中国科学技术大学,2018.
[4]张校非. 机器学习在语音识别和图像识别中的应用[D].中北大学,2018.
[5]吴兴铨. 基于卷积神经网络的歌唱语音识别[D].西南科技大学,2018.
[6]Boes, M.,Oldoni, D.,De Coensel, B.,Botteldooren, D. Long-term learning behavior in a recurrent neural network for sound recognition[C]. IEEE会议论文,2014.
[7] 赵淑芳、董小雨. 基于改进的LSTM深度神经网络语音识别研究[J].郑州大学学报(工学版),2018
[8]石颖. 基于循环神经网络的语音识别方案的优化与设计[D].北京交通大学.2017.
[9] Jürgen Schmidhuber. Deep learning in neural networks: An overview[J] . Neural Networks . 2014
[10]邵娜;李晓坤等,基于深度学习的语音识别方法研究[J].智能计算机与应用.2019.
[11]陈硕. 深度学习神经网络在语音识别中的应用研究[D].华南理工大学.2013.
[12]陈先昌. 基于卷积神经网络的深度学习算法与应用研究[D].浙江工商大学.2013.
[13]李宏松;苏健民等. 基于声音信号的特征提取方法的研究[D].信息技术.2006.
[14]张晴晴;刘勇等. 基于卷积神经网络的连续语音识别[J].工程科学学报.2015.
[15]张仕良. 基于深度神经网络的语音识别模型研究[D].中国科学技术大学.2017.