特定人语音控制音乐播放器软件系统设计文献综述

2020-04-10 16:30:18

文献综述

1、概述

语音识别是一门涉及面很广的交叉学科，与计算机、通信、语音语言学、数理统计、信号处理、神经心理学和人工智能等学科都有着密切的关系^[1] 。语音识别SR(Speech Recognition)主要是指让机器听懂人说的话，即在各种情况下，准确地识别出语音的内容，从而根据其信息，执行人的各种意图^[2] 。因此可以预见，语音技术必将对工业、金融、商业、文化、教育等诸方面产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点，一些主要先进国家都把语音识别的研究列为国家级的研究项目^[3-5]让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。比如我们可以运用语音识别技术通过MATLAB软件编程达到控制播放器的目的。省去了繁琐的键盘与鼠标或是按键操作，通过与机器的对话而实现”开”、”关”、”暂停”等控制。而我们所研究的课题正是以语音控制代替传统的控制方式来操作播放器，并且需要特定人的声音才能控制。

2、语音识别原理、方法及分类

语音识别分为训练阶段和识别阶段:第一步是系统”训练”阶段，任务是建立识别基本单元的声学模型。第二步是”识别”阶段。根据识别系统的类型选择能够满足要求的识别方法，采用语音分析方法分析出这种方法所要求的语音特征参数，按照一定的准则和测度与系统模型进行比较，通过判决得出识别结果。

语音识别的一般方法

语音识别的方法一般有模板匹配法、随机模型法和概率语法分析法三种^[2,6]虽然，这三种方法都可以说是建立在最大似然决策贝叶斯(Bayes)判决的基础上的，但具体做法不同。

(1)模板匹配法:早期的语音识别系统大多是按照简单的模板匹配的原理构造的特定人、小词汇量、孤立词识别系统。在训练阶段，用户将词汇表中的每一个词依次说一遍，并且将其特征矢量作为模板(Template)存入模板库。在识别阶段，将输入语音的特征矢量序列依次与模板库中的每个模板进行相似度比较，将相似度高者作为识别结果输出。由于语音信号有较大的随机性，即使是同一个人在不同时刻的同一句话发的同一个音，也不可能完全具有相同的时间长度，因此时间伸缩处理是必不可少的。动态时间规整算法(DTW)助成功地解决了孤立词识别时说话速度不均匀的难题。DTW是一个典型的最优化问题，它用满足一定条件的时间归正函数;所以DTW保证了两模板间存在的最大声学相似性。当词汇表较小以及各个词条不易于混淆时，这个算法取得了很大的成功。但是对于要求更高的语音识别系统，这种简单的模板匹配就力不从心了。对于连续语音识别系统来讲，如果选择词、词组、短语甚至整个句子作为识别单位，为每个词条建立一个模板，那么随着系统用词量的增加，模板的数量将达天文数字。所以为了使识别算法更有效，对于非特定人、大词汇量、连续语音识别系统来讲，就必须寻求模板匹配以外的其他识别方法#8212;随机模型及概率语法分析法。

在特定人孤立词语音识别中，DTW算法和HMM算法识别效果相差不大，而DTW算法运算量小，对硬件资源要求少。在孤立词语音识别中，最简单有效的方法是采用DTW算法^{[7] [8]} 。

(2)随机模型法。随机模型法是目前语音识别主流的研究途径。其突出的代表是隐马尔可夫模型（HMM）可以使用HMM的概率参数来对似然函数进行估计与判决，从而得到识别结果。语音信号可以看成是一种信号过程，它在足够短的时间段上的信号特征近似于稳定，而总的过程可以看成是依次从相对稳定的某一特征过渡到另一特征。HMM则用概率统计的方法来描述这样一种时变的过程。在该模型中，马尔可夫链中的一状态转移到另一状态取决于该状态的转移概率(状态生成概率)。由于从观察的角度看状态转移是隐含的，因此这是一个双重随机过程。HMM自被IBM和CMU(卡耐基一梅隆大学)的科学家引入语音识别研究以来，取得了巨大的成功。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码