语音信号中基音周期提取算法研究文献综述
2020-04-14 17:27:54
数字通信领域中,语音信号参数提取的准确性非常重要,只有获得准确的参数,才能利用这些参数进行高效地语音压缩编码和解码。而在参数提取中,基音周期的提取尤为重要,它直接影响到合成语音是否真实地再现原始语音信号的频谱。
在语音识别领域,基音频率也是个非常重要的参数。首先,对于带调语言,例如汉语,声调是词组意思的重要组成部分,把声调信息作为语音特征加入到语音识别系统的识别向量中去,可以大大减少要识别的音节,提高识别的准确度[11]。其次,对于所有的语言来说,语句的韵律特征在语言信息传递和理解的过程中都占有重要的作用[14]。提高计算机对语音韵律特征的识别能力,将会大大提高语音识别系统的智能。再次,在计算机辅助语言学习(CALL)系统中,评价说话标准程度的时候,除了指出发音不标准的地方,对说话韵律标准程度的判别也是非常重要的工作,而基音是确定各种韵律特征的一个重要参数,因此准确地提取语音的基音频率,在语音识别领域具有非常重要的意义。
在语音合成中,声调信息是主要的韵律参数,对合成语音的自然度有重要影响,因此声调模式分析和声调识别研究是一项重要的基础工作,而这项工作的前提就是准确可靠地检测语音信号的基音周期[10]。
另外,语音的基音信息在语义及语音学知识的自动获取和产生、语病的诊断和助听设备的研制等与言语相关的信息处理过程中扮演着极其重要的角色,能否简便而准确地从语音波形中提取基音信息,直接影响这些系统信息处理的准确性和可靠性。
综上所述,在语音信号数字处理的各个领域,无论是语音分析与合成、语音压缩编码,还是语音识别和说话者确认等,准确可靠地检测基音周期都至关重要,将直接影响到整个系统的性能[15]。尤其对于汉语这样一种有调语言,声调携带着非常重要的具有辨义作用的信息,有区分意义的功能,所以基音的提取和计算对汉语语音的处理显得尤为重要。
从开始分析研究语音信号以来,基音估计(Pitch Estimation)就是一个非常重要的研究课题,众多方法已被提出,但是都有它们各自的局限性[8]。到目前为止,还未找到一个可以适用于不同说话人、不同要求、不同环境、不同语种、不同情感状态的比较完善的基音提取方法。这是因为:第一,每个人的声道特征及声道的易便性都不尽相同;第二,基音频率的范围又比较宽;第三,即便是同一个人,他在不同情感状态下发音的频率也不同;第四,字词的发音音调不同基音频率也有可能不同。由此可见,基音提取是相当复杂的,是语音信号处理中最具难度的任务之一。
语音信号基音估计的困难主要有如下几方面:
第一,语音信号变化非常复杂。声门激励波形只是一个准周期脉冲串,并不是一个完全的周期脉冲串。虽然一个完全周期信号的周期是可以直接求取,但是提取语音信号波形的周期还是极其困难的。这是因为语音信号波形周期和波形的精细结构都是不断变化的,也就是说信号波形的周期是时变的。此外,在语音的开始和结束部分并不都具有周期性,很难快速准确判断有些清浊音过渡帧是周期的还是非周期的,因此也就无法检测基音周期[12]。
第二,基音检测也受声道影响。因为声道的共振峰有时对激励源信号的波形结构会产生很严重的影响,而从语音信号中得到仅仅与声带振动有关的激励源信息从而去除声道影响又有困难。
第三,在浊音语音段内,精确确定每个基音周期的始末位置很困难,这就限制了基音提取的可靠性,这主要是因为:语音信号本来就不是完全周期的,也就是说基音周期是有变化的;除此之外,共振峰结构和噪声等也会影响语音信号波形的峰值及过零率。