基于DSP的语音识别系统研究与设计文献综述
2020-04-14 20:04:33
语音是人类交流沟通的重要手段,承载着大量信息,具有便捷性。而自动语音识别技术的目的是让机器能够“听懂”人类的语音,将人类语音信息转化为可读的文字信息,为人们与各种智能设备进行人机交互提供了新的方式,使人们能更加快捷、方便地产生、传输、存储、获取和运用语音信息,这对于促进社会的进步具有及其重要的意义。近年来语音识别技术已经逐步从实验室走入了人们的日常生活中,被广泛地应用于电话语音拨号、汽车的语音控制、工业控制、医疗领域、个人数字助理、智能玩具、家电遥控等领域,给人类的生活方式带来了巨大的影响。
从1952年第一个语音识别系统Audry诞生以来,线性预测分析技术、动态规划技术、矢量量化技术、隐马尔可夫模型理论、动态贝叶斯网络等技术在语音识别中的应用大大推动了该领域相关技术的发展。最近几年,随着深度神经网络的应用,加上海量大数据的使用和云计算的普及,语音识别取得了突飞猛进的进展,在多个行业突破了实用化的门槛,越来越多的语音技术产品进入了人们的日常生活,如苹果的Siri、亚马逊的Alexa。2011年,微软研究院的研究人员在国际语音通讯协会的年会上提出了神经网络一隐马尔可夫混合模型,该模型可应用于大词汇量语音识别系统以及上下文的语音识别系统,它是目前实现非特定人实时语音识别的最好方法。
我国在语音识别方面的研究工作相对国外起步要晚,但近年来我国的语音识别技术发展十分迅速,从之前的单纯针对特定人发展到面向非特定人的语音识别,从孤立词的语音识别发展到连续词识别,从小词汇量的语音识别发展到基于大型语音模板库的语音识别,其中部分研究成果己经可以和国际上的研究相媲美。百度、阿里、讯飞、思必驰、科大讯飞、云知声等公司已经推出了各自较为成熟的基于语音交互的产品,语音识别技术在工业控制、汽车的语音控制方面的应用也已较为普遍与成熟。
语音识别技术在可用资源较多、运算能力强的设备上的应用己较为成熟,其识别效果也己经很好,但是在硬件资源有限、运算能力相对较弱的嵌入式平台上仍然面临一些问题,选择合适的语音识别算法并进行优化改进以节省硬件使用、减少计算量己经成为必须考虑的问题。动态规划(DTW)语音识别算法是比较经典和成熟的语音识别算法,它利用动态规划的方法有效解决了语音信号特征参数的帧长度不等的问题。在基于中小词汇量的孤立词语音识别系统中,其识别率与其他算法相差无几,而算法复杂度却低得多,所以动态规划(DTW)算法比较适合于较少词汇量的孤立词为主的语音命令控制。此外,绝大多数语音识别系统的应用场景中都存在着环境噪声与干扰,这大大影响了语音识别的性能。为此,本次设计将提出一种基于DSP的语音识别系统的硬件实现方案,并就系统中部分算法进行改进,从而减少系统资源使用、提高系统的抗噪性、改善系统在低信噪比的情况下的识别性能。
{title}2. 研究的基本内容与方案
{title}本次设计针对非特定人的孤立词语音识别,设计系统能够实现非特定人、小词汇表、孤立词的语音识别。首先,从算法层面来看,该系统功能的实现主要经由以下几个步骤:预处理、特征提取、识别。
预处理主要是对经过转换的音频信号进行处理,提高信号的信噪比及使得语音信号能被计算机处理,其中预加重对输入音频信号的高频进行补偿,使得高频更清晰。由于计算机只能处理有限长度的信号,故需对输入信号进行分帧加窗。端点检测确定信号中语音的起始点及结束点,从而滤去静音部分噪声。
经过语音预处理中端点检测后,己经将语音信号中清音、噪音区别出来,这
时就可以对所需语音信号进行特征参数提取,在分析语音信号的同时去掉较占空间的无用信息,最后获得对识别算法有用的重要参数。本次设计中特征提取参数采用梅尔频率倒谱系数(MFCC)。
语音识别的过程实质上就是模式匹配的过程,在模型训练匹配的过程中,先从已知模板中获得模型参数,再按照相似度量法则,将未知模式与参考模式库匹配而获得最佳匹配。本次设计中识别算法则采用动态时间规整算法(DTW)