基于神经网络的声音信号的识别系统设计毕业论文
2021-07-13 00:28:51
摘 要
语音识别技术自从其诞生以来就是世界各地学者们研究的热点。当今在语音识别的研究及其实际应用中,使用的主流技术是基于线性系统理论的,如隐马尔科夫(HMM)模型。因为语音的产生并不是一个简单的线性过程,所以这些技术的局限也逐渐凸显出来,于是基于神经网络的语音识别技术已成为时下更具优势的研究方法。
本文在此背景下,主要研究的内容有以下几个方面:一是浅谈语音识别的原理;二是研究语音信号预处理的具体步骤,讨论并比较提取特征值的提取方法。三是介绍神经网络的特点和结构。最后,在MATLAB软件上进行语音识别系统的仿真,使用自录语音完成汉语数码的识别,使用四类声音样本完成多类声音的分类。实验结果表明,基于神经网络的语音识别方法在进行元音识别的时候具有良好的识别率,使用神经网络能够很好地解决多类声音分类识别中的模式匹配问题。
关键词:BP网络;语音识别;特征提取;端点检测
abstract
The speech recognition technology has always been the focus of scholars around the world since it comes out. Speech signal is a complex nonlinear process, so the limitations of such as the Hidden Markov model and other methods based on linear system theory which are now widely used in speech recognition have gradually come out. The speech recognition technology based on neural network has become more competitive nowadays.
The main content of this paper includes the following aspects: one is the introduction to the principle of speech recognition. The second aspects are the study of speech signal preprocessing steps, and discuss and compare the different methods of acquiring speech feature values. Thirdly, the thesis introduces the characteristics and structure of the neural network. Finally, simulate the speech recognition system in MATLAB, and use recorded voices to complete the Chinese number recognition and use the four type music complete the classification of more sound. The results show that the vowel speech recognition rate of the recognition method based on neural network is higher, and its application advantage is more significant.
Keywords: BP network; speech recognition; feature extraction; endpoint detection
目 录
第1章 绪论 1
1.1 语音识别的发展历史 1
1.2 汉语数码语音识别的困难 1
1.3 语音识别技术的前景和应用 2
1.4 本文所做的主要工作 2
第2章 语音信号处理的基本知识 4
2.1 语音识别系统的结构 4
2.2 语音信号预处理 4
2.2.1 预滤波和采样 4
2.2.2 预加重 5
2.2.3 分帧和加窗 5
2.2.4 端点检测 6
2.3 特征参数提取 8
2.3.1 线性预测系数(LPC) 8
2.3.2 线性预测倒谱系数(LPCC) 9
2.3.3 梅尔频率倒谱系数(MFCC) 10
2.4 本章小结 11
第3章 神经网络与模式匹配 12
3.1 人工神经网络简介 12
3.1.1 人工神经网络模型 13
3.1.2 神经网络的结构 14
3.1.3 神经网络的学习 15
3.2 BP神经网络 17
3.2.1 神经网络模型 17
3.2.2 神经网络的学习算法 18
3.3 多类声音识别方案 19
3.4 本章小结 19
第4章 基于神经网络的语音识别系统的实现 21
4.1 仿真系统介绍 21
4.2 语音信号的预加重 23
4.3 语音信号的端点检测 24
4.4 语音信号的特征参数提取 26
4.5 神经网络的选取和设计 26
4.6 结果分析 29
4.7 本章小结 29
第5章 总结与展望 30
5.1 工作总结 30
5.2 改进方案 30
参考文献 31
致 谢 33
第1章 绪论
1.1 语音识别的发展历史
语音识别的研究最初始于二十世纪五十年代,这个时期主要是围绕语音特征方面进行研究。尤其是语音的频域特征和人耳的功能等方面,其中一个最著名的成果是美国贝尔实验室研发的系统,这个系统只能识别十个英文数字,并在很大程度上依靠数字中元音的共振峰的测量[1]。六十年代,计算机技术不断发展,为语音识别提供了良好的平台,这个时期提出了动态规划(DTW)技术和线性预测编码(LPC)技术,其中LPC较好的解决了语音信号产生模型的问题,DTW有效解决了在孤立词识别中语速不均匀的问题,对语音识别的研究产生了极为关键的影响[2]。七十年代,一方面线性预测分析技术和动态时间归正技术迅速发展,另一方面,在这个时期首次提出了矢量量化(VQ)和隐马尔可夫模型(HMM)这两个理论,在实践上实现了基于这两种技术的特定人孤立语音识别系统[3]。八十年代,隐马尔可夫模型和人工神经元网络都成功应用到了诸多方面。贝尔实验室极大推动了隐马尔可夫模型的广泛应用,他们将抽象的纯数学模型工程化,从而推动更多人开始了对其的进一步研究。当时基于这两个模型进行的语音识别其性能相差不远。进入九十年代,随着计算机多媒体时代的到来,语音识别技术的发展也进入了一个崭新的时期,随着人们开始追求更方便多元的需求,语音识别技术也逐渐走出实验室,走进人们的现实生活。
我国是于七十年代末才开始研究语音识别技术的,虽然起步较晚,但是得到了相当程度的重视。由于中国人口多,潜在市场大,汉语的语音识别中也不乏国外学者。另外,我国许多著名学者也来到美国、新加坡等地进行学习和研究,取得了不错的进展。由此可见,语音识别的研究不但要发展理论,更要推动其从实验室演示系统进入商业系统的进化[4]。
1.2 汉语数码语音识别的困难
在汉语大词汇量语音识别方面,国内外的研究都达到了很高的水平。但汉语数码(“0”到“9”)语音的识别技术却发展缓慢。汉语数码识别技术在移动通信等很多领域都有不小的应用价值,并且受到了国内科研单位的广泛重视。对于非特定人汉语数码语音单字的识别率还没有一例超过99%,而连续数码串的识别率更是低于95%,可以看出,目前汉语数码语音识别性能远远不及英语数码语音识别性能。