语音识别方法研究与实现开题报告
2020-02-18 18:35:28
1. 研究目的与意义(文献综述)
在信息化高速发展的今天,伴随移动设备的普及,语音技术早已渗透到人们生活中的各行各业。自计算机发明以来,让机器赋予人的听觉特性,听懂人说什么,并做出相应的动作,一直是人们追求的目标。自动语音识别技术便是其中关键的一部分,它旨在通过对信号处理和模式识别技术的研究,使计算机正确理解人类的语言并将语音信息转化为可读的文字信息,以实现人机交互。语音识别其本质上是一种模式识别的过程,通过将未知语音的模式与已知语音的参考模式逐一进行比较,得出的最佳匹配模式则被作为最终的识别结果。
语音识别的研究工作可以追溯到20世纪50年代,其雏形是由贝尔实验室研究出来的audry系统,它是第一个能够识别十个英文数字的语音识别系统。随着计算机技术的发展,到20世纪60年代末,动态时间规整(dtw)技术和线性预测编码(lpc)技术的提出,使语音识别技术得到了实质性的突破,它使得语音信号可以等长进行处理,并解决了语音信号的特征提取问题。与此同时,矢量量化(vq)和隐马尔科夫模型(hmm)理论也被相继提出,为日后语音技术的进一步发展奠定了基础。在20世纪80年代末期,人们在实验室语音识别研究中,终于逾越了语音识别技术中大词汇量、连续语音和非特定人这三座大山,其代表为卡耐基梅隆大学的李开复实现的以高斯混合模型和隐马尔可夫模型(gmm-hmm)为核心框架的非特定人、大词汇量连续语音识别系统sphinx。在这一时期,语音识别的研究进一步走向深入,其显著特征是hmm模型和人工神经元网络(ann)在语音识别中的成功应用。
步入21世纪,基于深度神经网络(dnn)的语音识别技术走向舞台的中央,2006年“神经网络之父”hinton提出了使用受限的波尔兹曼机来实现对神经网络中每个节点的初始化过程。不同于之前gmm-hmm语音识别框架表达能力有限,无法处理较大规模数据的情况,深度学习框架具备有更强的表达与建模能力的多层非线性变换的深层结构,由于人类产生和处理语音信号就是一个极其复杂的过程,甚至该过程本身也具备多层次和深层次的处理结构,这样就使得基于深度学习的语音识别模型对复杂数据的挖掘和学习能力得到了空前的提升,使得语音识别技术不再局限于处理小规模或是单一性的数据。
2. 研究的基本内容与方案
2.1 基本内容
学习语音识别理论和matlab相关知识,了解语音识别的基本方法,掌握语音识别系统的基本原理和流程,介绍实现语音识别的基本步骤,建立识别基本单元的声学模型以及进行文法分析的语言模型,根据识别系统的类型,选择能够满足要求的一种或多种识别方法,采用语音分析方法分析出识别方法所要求的语音特征参数,按照一定的准则和测度与系统模型进行比较,通过判决得出识别结果。
3. 研究计划与安排
第1-3周 查阅文献;分析题目研究现状,学习基本理论;
第4周 阅读文献、撰写开题报告,英文文献翻译;
第5周 学习了解语音识别系统的分类和基本组成,确定实现方案;
4. 参考文献(12篇以上)
[1] 胡光锐.语音处理与识别[m]. 上海:上海科学技术文献出版社,1994.
[2] l.拉宾纳,阮平望.语音识别基本原理[m]. 北京:清华大学出版社, 1999.
[3] 赵立.语音信号处理[m].北京:机械工业出版社,2003.
最新文档
- 性能优化的FRP护套用于钢筋混凝土框架的抗震改造外文翻译资料
- 圆形截面的FRP约束混凝土:审查和评估应力应变模型外文翻译资料
- FRP约束混凝土的轴向压缩行为:实验测试数据库和面向设计的新模型外文翻译资料
- 腐败与美国各州收入不平等之间的关系:来自专家小组的协整和误差修正模型的证据外文翻译资料
- 利用污泥和低质粉煤灰制备高强度陶粒外文翻译资料
- 表面活性剂改性疏水性Cu2O量子点作为高效钙钛矿太阳能电池顶部空穴传输材料外文翻译资料
- 内蒙古1962 – 2016年时间序列气候变量的变化特征外文翻译资料
- Nb 和 Ni 共掺杂 Mg(0001)氢解离扩散的理论研究:外文翻译资料
- 基于 Jetson Nano 深度学习平台的学生课堂学习评估系统—–学生的人脸检测与识别外文翻译资料
- UI 和 UE 设计技术及其在 HTML5 网站开发中的地位的研究外文翻译资料
- 皇后大道大桥——NEXT梁外文翻译资料
- 连续梁桥支座附近的波纹钢腹板抗剪性能评估外文翻译资料
- 在200至300℃的温度下纤维素的水热降解外文翻译资料
- 残差修正法在季节性ARIMA电力需求预测中的应用:以中国为例外文翻译资料
- 注蒸汽井中硅含量对水泥石抗压强度的影响外文翻译资料