基于MFCC的语音信号特征提取研究文献综述
2020-05-01 08:40:53
1.1背景简介
随着社会经济的发展,互联网络和信息化技术的普及与应用越来越广泛,个人身份认证的数字化、便捷化、隐性化等也就显得越来越重要。例如在自动身份验证、金融安全、军事安全、视觉监控、人机交互技术以及司法侦查等领域,都迫切地希望具备简单易行的、可靠的识别个人身份的方法。传统的身份识别方法,如证件、口令等容易丢失或遗忘,且无法区分真正的拥有者和取得上述身份标识物的冒充者,成为信息安全领域的重大隐患。因此,研究一种快速的、有效的、稳定的身份识别技术成为信息化时代的热点。由于每个人与生俱来就具有唯一的、不容易假冒和伪造的生物特征(如指纹、掌形、脸部、虹膜、声音等),所以通过利用人体所固有的生理特征或行为来进行身份识别的生物识别技术就应运而生。比尔·盖茨认为:“以人类生物特征来进行身份认证的技术,在今后数年内将成为 IT 产业最为重要的技术革命。”
在生物特征中,语音是人类最方便、最实用、最自然的一种特征。由于每个人说话时所使用的发声器官,如牙齿、舌、喉、肺以及声道等,在形状和尺寸等方面都会存在着巨大的生理差异,所以不同的人对同一个字的发音所产生的波形都是不相同的,每个人的语音都具有强烈的个人色彩,此外,语音的产生、传输以及提取都是非常容易实现的。因此,利用语音特征来进行身份鉴别的说话人识别技术将成为生物认证技术中最为方便、安全和环保的识别技术。与其他生物识别技术(诸如人脸识别、虹膜识别、指纹识别、掌形识别等)相比较,说话人识别技术具有生物识别技术共同拥有的无需记忆、不会遗失和忘记、使用方便等优点。语音信号的特征向量一般分为两类,第一类为时域特征向量,通常将帧语音信号的各个时域采样值直接构成一个向量。第二个为变换域特征向量,即对一帧语音信号进行某种变换后产生的特征向量。
1.2课题研究的意义
通过研究,人们发现人耳对不同频率的语音具有不同的感知能力,这个感知能力并不是随着频率的增加而线性增加。通过大量的实验,人们根据人耳在不同频率下的音调感知能力,提出了mel频率的概念,这里的mel就是人耳所感知到音调的度量单位。由于汉语是有调语言,mel频率正是对人耳所听到的汉语音调的度量。这个参数可以很好的描述人耳对汉语语音音调的感知情况。很多研究也证明,由于mel频率特性反映了人耳的听觉特性,因而在用于代替人耳来分析语音时,其性能和鲁棒性都是最符合实际听音效的。MFCC参数与基于线性预测的倒谱分析相比,突出的优点是不依赖全极点语音产生模型的假定,在与文本无关的说话人识别系统中,MFCC参数能够比其他参数更好的提高系统的识别性能。
1.3国内外研究现状
说话人识别的早期研究工作,主要集中在人耳听辨和探讨听音识别的可能性方面。随着语音研究的不断深入,说话人识别研究也取得了重大进展,并成为一个很热门的研究领域。目前国外已经有了一些成熟产品。我国在这方面的研究起步较晚,但是目前中科院语音所、中国科技大学、清华大学等多个研究机构和高校都在说话人识别领域开展了研究工作,并取得了丰硕的研究成果。目前,话人识别技术虽然已取得了很多成就,但是大多数的说话人识别系统仍处于实验阶段,需要较长的语音文本以及大量的训练数据来建立话者模型,这是不能商业化的主要问题之一。因此利用尽可能少的训练数据建立有效的说话人模型,实现高性能的说话人识别,更具有现实意义。另外对于实时性要求较高、没有充分的存储资源及计算资源都是制约说话人识别发展的主要因素。
{title}2. 研究的基本内容与方案
{title}2.1研究的基本内容
首先了解语音信号产生机理以及语音信号基本特征,从时域和频域两个方面了解语音信号特征表示方式并做简单对比,其次要熟悉MFCC的基本原理以及利用MFCC算法进行特征提取的基本步骤,然后在MATLAB平台编写代码完成基于MFCC的语音信号特征提取,包括特定单字语音及中文语句信号的特征提取。最后利用相关最优化算法完成特征值的优化选择。
2.2设计步骤