语音情感识别技术仿真研究文献综述

2020-04-14 17:28:51

1．目的及意义

1．目的及意义

1.1本课题研究目的及意义

当今社会，计算机技术日益蓬勃发展，人们的追求也随之提高，不仅仅诉诸于键盘、触控等硬件设备来与计算机交互，而通过语音输入来出传递信息。语音传递信息是人类最重要和最有效的交换信息的形式之一。语言是人类特有的功能之一，声音是人类常用的工具，是相互传递信息的最主要的手段。因此，语言信号是人们构成思想疏通和感情交流的最准主要的途径。人们越来越迫切的要追求键盘的束缚而代之以语音输入这样便于使用的、自然的、人性化的输入方式。尤其是汉语，它的汉字输入一直是计算机应用普吉的障碍，因此，利用汉语语音交互是一个重要的研究课题。作为高科技应用领域的研究热点，语音信号处理技术从理论到产品开发已经走过了几十个春秋并且取得了长足的进步。它正在与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理相接轨。相比于传统意义上的用键盘鼠标触控板等接触式输入为主的人机交互，生动、智能灵活的非触控式交互方式更为人们所期盼。更重要的是带有情感的人机交互，如何让计算机识别人的情感状态尤为需要。因此，语音情感识别研究带来的贡献，不但能够推进科学技术水平的不断发展，也给人们的生活带来了很大的便利，改善人们的生活。它能高效捷快的处理人们在生活中遇到的问题。因此，语音情感具有潜在市场，并且对人和机器的交流将有很大的贡献。

1.2国内外研究现状

随着人机交互的应用需求提高，语音信号作为一个重要的研究领域，科学家对该领域研究越来越深入，开展了大量的语音情感识别技术研究课题。最早和语音情感相关的课题可以追溯到Fairbanks和Pronovost于1939年发表的论文。在此论文中研究者主要探究了声音线索在情感表达中的重要性以及在人机交互的过程中，声音所夹带的情感所带来的强大的影响力，首次将语音情感引入研究。但Fairbanks等人对语音情感识别仅作了理论上的研究，而没有开展语音情感识别实质性的研究。1952年，贝尔实验室的Davis等人首次研制成功能识别10个英语数字的实验装置。1956年，Olson和Belar等人采用8个带通滤波器组提取频谱参数作为语音的特征，研制成第一台简单的语音打字机。使得语音情感识别得以蓬勃发展的是20世纪80年代中期，由于矢量化，隐马尔可夫模型和人工智能网络等相继被应用于语音信号处理，并经过不断的完善，使得语音信号产生了突破性的进展。在此期间，Tolkmitt团队利用声学特征的统计特性，使一台机器识别语音蕴含的情感信息，让计算机有应对情感的能力。20世纪末，某实验室研究出了一个“情感的编辑器”，此编辑器的主要作用是提取多个不同类别的情感信号，然后判别各类情感，最终达到机器对各种不同情感给予相应的合理的反应。2001年，New等人提出了一种新的基于梅尔频率短时语音功率系数的特征向量，并使用离散隐马尔可夫分类器识别六类基本情感。2004年，DN.jiang等人使用高斯混合模型建模语音情感统计特征，使用隐马尔可夫模型建模语音的时序特征，将高斯混合模型和隐马尔可夫模型似然度作为最终的特征向量，使用加权的贝叶斯分类器和多层感知器算法识别语音情感，结果表明，两种特征结合比单一特征下的语音情感识别率提高了。2007年，在情感分类器上研究成果显著的是Morrison等人，研究方法是利用单一分类器间的组合寻求最佳效果。研究中选取的基分类器有随即森林，基于实例的K*学习法，径向基函数支持向量机，K最领近和多层感知器。组合方式是采取未加权投票和堆叠两种组合策略，选取的语音情感数据库是Natural和ESMBS情感数据库。实验结果表明组合方法的识别率高于传统分类器的识别准确率。2008年，L.Fu研究了说话人无关的语音情感识别，以HMM和SVM作为情感识别算法，相比较于仅用HMM,混合模型识别准确率更高，达到了76.1%，也表明了混合模型下的算法比单一模型的算法效率更高。2011年，在语音情感识别领域Lee等人引入了声学和韵律学相关的384个特征，使用二元逻辑回归方法进行特征选择，使用分层的决策树算法作为情感识别算法，该方法优点是准确率高于支持向量机的准确率，缺点是容易导致误差累计增长。

国内在语音情感识别领域起步较晚，最早开展研究的是东南大学的赵力教授牵头的语音识别团队。20001年该团队建立自己的小型的语音情感库，库内包括高兴、愤怒、悲伤、和惊奇四类情感300条语句。在2003年该团队引入了支持向量机作为汉语言语音情感识别算法，研究了支持向量机的核函数选取问题。2010年余华等人提取语音情感韵律学特征，声音质量特征和谐波噪声比等74个特征，使用混沌操作优化混合蛙跳算法，并将改进的混合蛙跳算法于神经网络算法相结合，进行高兴、悲伤、愤怒、害怕、惊讶、平静六种情感识别，比后向传播神经网络识别准确率提高了9.2%，比径向基函数神经网络识别准确率提高了7.9%。2014年，张潇丹等人使用混合蛙跳算法处理支持向量机的参数优化问题，提高了语音情感识别率。

国内外研究的集中点在于获取有效的情感特征和寻求性能更加的情感识别算法两个环节。{title}

2. 研究的基本内容与方案

{title}

2.1研究目标

本课题通过理论掌握语音情感识别技术的基本原理和流程，选取现行的模式识别技术对理论分析进行实验仿真。通过实验仿真达到理论与实验相结合，因而从实际出发，认知各个模式识别的优缺点和应用场景，以提高人们在人机交互中的交流水平。

2.2研究的基本内容

2.2.1掌握语音情感识别的基本概念，即计算机自动识别输入语音信号的情感状态，其中包括具体细节和技术上的复杂过程。

2.2.2语音情感识别系统

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码