语音信号中基音周期提取算法研究毕业论文
2020-02-17 21:46:44
摘 要
在语音信号处理领域,无论是语音增强、语音识别、说话人识别、语音编码、语音合成与转换以及语音信号情感处理,基音周期的检测都至关重要。基于此,本文的主要内容就是对不同的基音周期检测算法进行分析和验证,并且在此基础上介绍一些改进的算法。
既然是对语音信号进行研究和处理,本文首先阐述了语音信号是如何产生的、模拟语音信号生成的数学模型以及能表述语音信号主要信息的一些特征参数;在此基础上对纯净语音下的经典算法进行了分析和验证,然后又分析了两种应用于噪声环境下的算法。本文的主要工作如下:
- 对ACF、AMDF、倒谱法及SIFT等基音检测算法进行了分析和验证,并在此基础上分析了三电平削波的互相关法、CAMDF等方法。其中倒谱法和SIFT法均引入了线性预测的残差余量信号,将这种信号通过低通滤波有助于提升基音提取的精度。
- 为了提升基音检测的精度,在基音检测中加入了预处理和后处理措施。预处理措施包括基于能熵比法的端点检测和为消除共振峰影响的带通滤波处理。后处理措施的目的是为了消除野点,因而对提取后的基音检测结果进行了线性平滑处理。
- 基于实际生活中的语音都夹杂强烈的背景噪声,本文分析了基于小波变换的小波-自相关法和基于谱熵法减噪的谱熵-自相关法,并且对这两种方法进行了对比讨论。并得出谱熵-自相关的抗噪性能要优于小波-自相关法。
关键词:基音周期,自相关函数,平均幅度差函数,小波变换,谱熵法
Abstract
In the field of speech signal processing, whether it is speech enhancement, speech recognition, speaker recognition, speech coding, speech synthesis and conversion, and speech signal emotion processing, the detection of pitch period is crucial. Based on this, the main content of this paper is the analysis and verification of different pitch period detection algorithms, and introduce some improved algorithms based on this.
Since it is the research and processing of speech signals, this paper first explains how the speech signal is generated, the digital model of analog speech signal generation and some characteristic parameters that can express the main information of speech signals. Then on this basis, the classics algorithm under pure speech is analyzed and verified, and then two algorithms are applied to the noise environment. The main work of this paper is as follows.
(1) The pitch detection algorithms such as ACF , AMDF , cepstrum and SIFT are analyzed and verified. Based on this, the cross-correlation method of three-level clipping and CAMDF are introduced. The cepstrum method and the SIFT method both introduce the residual residual signal of linear prediction, and the low-pass filtering of this signal helps to improve the accuracy of pitch extraction.
(2) In order to improve the accuracy of pitch detection, pre-processing and post-processing measures are added to the pitch detection. Pre-processing measures include endpoint detection based on energy entropy ratio and bandpass filtering to eliminate formant effects. The post-processing measures linearly smooth the extracted pitch detection result to eliminate the wild point .
(3) Based on real-life speech are mixed with a strong background noise, this paper based on wavelet wavelet transform - autocorrelation and spectral noise reduction based on spectral entropy entropy - autocorrelation method, and compared these two methods discussed . It is concluded that the spectral entropy - autocorrelation anti-noise performance is better than the wavelet - autocorrelation method.
Keywords : Pitch period, Autocorrelation function, Average amplitude difference function, Wavelet transform, Spectral entrop
目 录
第1章 绪论 1
1.1 引言 1
1.1.1 语音信号处理 1
1.1.2 语音信号的基音周期 2
1.2 基音周期检测的意义及其影响因素 2
1.2.1 基音周期检测的意义 2
1.2.2 影响基音周期检测的因素 3
1.3 基音周期检测的研究现状和未来展望 4
1.3.1 基音周期检测研究现状 4
1.3.2 基音周期检测的未来展望 4
1.4 本论文的主要内容和组织框架 5
第2章 语音信号处理的基础知识 7
2.1 语音信号的产生 7
2.1.1 语音发音系统 7
2.1.2 发音的三种方式 8
2.1.3 共振峰 8
2.2 语音信号生成的数字模型 9
2.2.1 激励模型 10
2.2.2 声道模型 10
2.2.3 辐射模型 11
2.3 语音信号分析 11
2.3.1 语音信号的短时时域分析 11
2.3.2 语音信号的短时频域分析 13
第3章 纯净语音下传统基音周期检测算法分析 15
3.1 基音周期提取的预处理 15
3.1.1 基于能熵比的端点检测 15
3.1.2 基音检测中的带通滤波器 16
3.2 短时自相关法的基音检测 16
3.2.1 基本原理和算法介绍 16
3.2.2 算法实现及分析 18
3.3 短时平均幅度差函数的基音检测 19
3.3.1 基本原理和算法介绍 19
3.3.2 算法实现及分析 20
3.4 倒谱法的基音检测 21
3.4.1 基本原理和算法介绍 21
3.4.2 算法实现及分析 22
3.5 简化逆滤波法的基音检测 23
3.5.1 基本原理和算法介绍 23
3.5.2 算法实现及分析 24
3.6 小结 25
第4章 带噪语音下基音周期检测算法的分析 26
4.1 小波-自相关函数法 26
4.1.1 基本原理和算法介绍 26
4.1.2 算法实现及分析 27
4.2 谱减-自相关函数法 29
4.2.1 基本原理和算法介绍 29
4.2.2 算法实现及分析 30
4.3 对比分析 31
第5章 总结与展望 33
参考文献 34
致 谢 35
绪论
引言
在日常生活中,我们主要是通过语音、肢体动作、面部表情、眼神和书信等方式来进行交流的。毫无疑问,通过语音来进行信息的交流最为方便,而这也使得其占据的频次较其他方式更高。通过语音的交流,我们几乎能够表达所有想要表达的消息,所以它是一种非常有效的方式。声音传播依靠的介质是空气,在人类生活的环境中,人们可以随时随地的进行语音交流。但是语音在传播的过程中会不断的衰减,以至于距离过远会使得其不可闻。因此,为了能同远方的人们进行交流以及保存一些重要的语音信息就不得不借助现代的语音处理技术。通过对语音信号进行存储并且对其相关特性进行深入的研究,我们可以最大限度的利用语音中所包含的信息。当代,我们处于一个信息爆炸时代,因而寻求高效的语音处理技术对于整个人类社会的发展是非常有意义的。本文基于这一点,对语音信号最重要的一个参数—基音周期,展开相关研究。
语音信号处理
语音处理,这是一门与DSP联系非常紧密的学科。可以这么说,DSP是整个语音处理的基础,是一切信号处理的基础。对语音进行处理主要是为了从语音信号中提取出有用的信息,这主要包括能反映语音绝大部分信息的特征参数。有了这些参数,结合DSP就可以对语音信号进行有效的存储和传输。另外通过一些及与其他学科的结合,能够将其运用于实际生活当中,例如识别人的讲话等。其典型应用包括语音增强、语音识别、说话人识别、语音编码、语音合成和转换、语音信号情感处理和语音隐藏及声源定位等[1]。
语音增强的对象是带噪语音,其目的是降低甚至消除噪声的干扰从而突出携带有用信息的语音信号。这种技术在语音信号处理当中是必不可少的一步。
由于话音信号是模拟信号,其所含信息量较大。如果直接将其存储在计算机中或者进行传输,一方面计算机的存储容量有限,另一方面传输的速率也会受到很大的限制。语音编码技术就是将模拟的语音信号数字化,从而解决上述问题,使其适合计算机处理和传输。
语音识别和说话人识别综合而言就是让机器能够识别一段语音,而这也是语音信号处理与人工智能等方面相互融合的一个分支。
语音合成与转换主要是将文字性的信息转化成语音信号的一个过程。有声小说朗读正是这一技术的应用之一。
语音信号情感处理则是语音信号处理领域一个更高阶、更有难度的分支。不同人的情感表达方式的不同加上即使是同一个人在不同情境下讲出的同一句话也是包含不同情感的,因而这一分支的发展需要与心理学研究相结合从而更好地识别话语要表达的情感,另外要处理海量的数据则有赖于大数据的处理。
语音信号的基音周期
根据人在发声时声带振动与否,将声音分为浊音(Voiced sounds)和清音(Unvoiced sounds)。声带振动,人发出浊音;声带不振动,发清音。语音中的能量基本集中在浊音当中,清音的能量很微弱。清音类似于白噪声,无明显周期性;而浊音在时域上呈现明显的周期性。而本文中我们所要考察的对象—基音周期(Pitch),是就浊音而言的。发浊音时声带周期性的张开和闭合所需要的时间,就是基音周期,它由声带逐渐开启到面积最大(约占基音周期的50%)、逐渐关闭到完全闭合(约占基音周期的35%)、完全闭合(约占基音周期的15%)三部分组成[2]。基音周期的倒数称为基音频率。
基音频率与个人声带长短、厚薄、韧性有关,年龄、性别、发音时的力度和情感也有关[3]。基音频率所具备的这种特性正是其用于辨别不同发声者的原因。一般而言,男性说话者的基音频率较低,大部分在70~200Hz的范围内,而女性说话者和儿童的基音频率相对较高,在200~450Hz内[4]。这就是通常所说的“男的声音低,女的声音高”。
基音周期检测的意义及其影响因素
基音周期检测的意义
基音周期的估计称为基音周期检测(Pitch period detection,PPD),其最终目的就是要找出与声带振动频率完全一致或尽可能相吻合的轨迹曲线[5]。
在语音信号处理当中,对一些能表现语音特征的重要参数进行精确的估计,有利于将语音信号由模拟状态转为为离散状态。基音周期是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征[6]。基音信息在语音合成、语音压缩编码、语音识别和说话人识别等领域都有着广泛而重要的运用[7]。因为汉语是一种有调语言,基音模式的变化称为声调。在汉语中,汉语音节有四种声调(阴平、阳平、上声、去声)[8]。每种声调都有不一样的轨迹,如图1.1所示。在用汉语交谈时,不但要凭借不同的元音和辅音来辨别字词的意义,还需要从不同的声调来区分,也就是说声调具有辨义作用[9]。此外,在汉语当中存在大量的多音字,对于目前做语音识别来说,准确地检出基音周期就显得非常重要。因为如果基音不够精确,就很难辨别这个多音字它的真实意思。所以,在汉语中,PPD也十分重要。
图 1.1 汉语四种声调的模式图
影响基音周期检测的因素
因为基音周期的重要性,PPD一直处于一个十分基础和突出的位置。基音周期是声门张开闭合一次所需时间,而声道的易变性以及不同的人声道特征存在较大的差异,这就为PPD带来了一定的困难。另外基音周期有一个较宽的范围,即使是讲同一句话,当人的情感、发音力度不同时,基音周期也会随之变化。由于基音的复杂易变,目前为止仍没有一个适用于所有情境的强大算法。究其原因,主要有以下几个方面:
- 由于人类的发声特性,声门激励信号只具有准周期性(Quasi-periodic)。所谓准周期是指只是近似的周期性,并非完全严格的周期性。而这种准周期性对于声门激励信号而言也并不是完全成立。因为在该信号的开始和结束的部分并不能检测出明显的周期性。在清、浊音的过渡帧部分也很难确切地判断其是周期性还是非周期性。
- 基音频率处在100~200Hz的情况占大多数,浊音信号往往可能包含有三四十次谐波分量,而其基波分量往往不是最强的分量,这就造成了检测基音时会把谐波当成基波,从而造成基音周期的误判[10]。
- 此外当声门处准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称为共振峰[11]。语音的第一共振峰通常在300~1000Hz的范围内,形成的2~8次谐波分量常常比声门激励信号的基波分量还要强,这也是造成误判的原因。
- 由于年龄、性别等因素的影响,基音频率具有较大的带宽。从老年男性的50Hz到女性和儿童的500Hz左右,接近三个多倍频程。如此宽的带宽也给PPD带来了很大的困难。
- 在实际运用中,语音信号一般夹杂强烈的背景噪声。这些背景噪声会极大影响PPD算法的性能。
基于以上因素,基音周期的检测迄今为止并没有一个可以适用于各种场景下的方法,而寻找一种鲁棒性高,适应性强的语音基音周期提取算法也就成为了一个研究的方向。
基音周期检测的研究现状和未来展望
基音周期检测研究现状
在上一个章节中,我们已经了解到语音基音检测存在许多的困难。正如1.2.2小节所说的,基音周期的重要性使得PPD具有重大的研究改进价值。自基音检测提出以来,国内外的科学家为了寻求一个稳定、适应性强的PPD算法,一直在孜孜不倦地努力着。虽然有关PDD的研究在国内开始得较晚,但我们已经在这方面取得了长足的进步,特别是在汉语的PDD方面取得的成果尤为突出。目前的PDD算法大致分为两类:非基于事件检测方法和基于事件检测方法,这里的事件是指声门闭合[12]。
非基于事件的检测方法主要有:自相关函数法、平均幅度差函数法、倒谱法、线性预测法。这一类方法主要是基于时域的方法,在时域方法中,直接从信号波形估计周期[13]。语音信号是一种典型的时变、非平稳信号。联系语音信号是如何产生的,它的产生是由我们的发声器官的运动导致的。发声器官的运动在一个短暂的时间内较为平缓。因此语音信号可以假设为短时平稳的,即在短时间内,其频谱特性和某些物理特征参量可近似地看作是不变的[1]。非基于事件的检测算法正是利用语音信号短时平稳性这一特点,先将语音信号分成长度一定的语音帧,然后对每一帧语音求基音周期。与基于事件的PDD方法相比较,该类算法简单,计算量小。但其缺陷在于,由于以帧为最小检测单元,所以帧内的语音信号的变化被忽略,致使检测精度不高。
基于事件的检测方法是通过定位声门闭合时刻来对基音周期进行估计,不需要对语音信号进行短时平稳假设,主要有小波变换和Hilbert-Huang变换两种方法[9]。这两种方法具有较好的时频局部特性,即使是十分细微的基音周期变化也能够被检测出来。因此该法的优点在于检测精度较高,缺陷就是运算量较非基于事件的PDD方法大。
以上所讲基音检测方法都是传统的经典方法,但这些方法都或多或少存在一些缺陷。如自相关函数法,倒谱法,线性预测法等均较适合用于纯净语音基音周期的检测,当遇到含噪语音时效果则会大打折扣。而在现实生活中大部分语音都夹杂强烈的背景噪声,这就导致了上述方法运用的局限性。小波变换法可以在含噪语音的基音检测中取得良好的效果,而该种方法并没有考虑个体差异性及情感对基音周期的影响。要知道一个基音检测算法的健壮性及准确性与个体、情感、环境是密切相关的,而基音检测算法的健壮性对于语音信号处理是十分重要的[14],所以以上所述算法并不能很好的适用于各种情况下。
基音周期检测的未来展望
虽然目前所提出的基因检测算法并非都是万能的,但这并不能说明我们不能在此领域有所突破。基于已有方法及目前所遇到的一些困难,我们可以考虑从以下角度来对语音基音检测算法加以改善。
- 基础理论方面的突破。一直以来我们对语音信号的处理都是基于传统的语音信号生成的数字模型。该模型认为语音生成模型由激励源、声道模型和辐射模型串联而成。而从生理上来讲,这三部分之间是存在非线性耦合的,这种串联的模型就割裂了各部分之间的联系。因而我们希望未来通过生物领域的进一步发展,更加明晰发声的机制,建立一个更为准确的语音生成模型。同时结合云计算、大数据等解决目前因为运算量过大带来的瓶颈。
- 预处理方面。除了安静的实验室中所产生的语音噪声较小外,现实中的绝大部分声音都是夹杂强烈的背景噪声的,此外由于声门脉冲激励要经过声道,所以也带来了共振峰影响。考虑到背景噪声和共振峰影响,对语音信号进行预处理是提升基音检测准确性的一个好方法。虽然目前存在一些预处理的算法,但是未来在预处理方面仍然可以进一步提升。
- 后处理方面。在基音周期检测中,常会产生基音检测错误,使求得的基音周期轨迹中有一个或几个基音周期的估计值偏离了正常轨迹,这种偏离点被称为基音轨迹的“野点”[10]。为了去除这些野点,可以采用各种平滑算法,其中最常用的是中值滤波算法和线性平滑算法。未来通过对后处理的算法性能加以改进亦可进一步提升基音周期检测的准确性。
- 适当考虑个体差异、不同情感和发音力度的影响。正如1.1.2章节所述,不同个体生理结构及发音习惯的差异、同一个体在不同情绪状态下和不同发音力度下,基音周期是复杂多样的。目前主流的基音检测算法并没有考虑相关因素的影响,未来设计当中应该考虑这些差异性来提升基音周期检测算法的适应性。
本论文的主要内容和组织框架
本论文在前人研究的基础上,对应用于纯净语音环境下的传统的基音周期检测算法如自相关函数法、短时平均幅度差法、线性预测法和倒谱法等进行了分析与验证。而这些方法在噪声环境下对基音周期的检测都不理想,而除安静的实验室环境外的语音都难以避免的夹杂着强烈的背景噪声。为此,在对传统的基音周期检测算法分析的基础上,引入小波变换法和谱减法降噪处理,以期得到一个鲁棒性(Robust)较好的算法。
本文分别利用小波变换法和谱减法与传统基音周期检测算法相结合,分析了几种效果较好的基音周期检测算法。将抗噪语音算法与传统算法在不同信噪比环境下的基音检测效果进行比较,验证所分析算法的正确性。
以上是毕业论文大纲或资料介绍,该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取,微信号:bysjorg。
相关图片展示: