基于语音识别的智能控制系统设计开题报告

2022-01-07 21:56:28

全文总字数：3483字

1. 研究目的与意义及国内外研究现状

语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术，语音识别技术一直受到各国科学界的广泛关注。如今，随着语音识别技术研究的突破，其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛，如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等，几乎深入到社会的每个行业和每个方面。

国内外研究现状

国外研究现状：语音识别应用的研究工作可以追溯到20世纪50年代att贝尔实验室的audry系统，它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展，并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能，更重要的是语音信号线性预测编码(lpc)技术和动态时间规整(dtw)技术的提出，有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理，研究的领域局限在特定人，小词汇表的孤立词识别，实现了基于线性预测倒谱和dtw技术的特定人孤立词语音识别系统;同时提出了矢量量化(vq)和隐马尔可夫模型(hmm)理论。随着应用领域的扩大，小词汇表、特定人、孤立词等这些对语音识别的约束条件需要放宽，与此同时也带来了许多新的问题：第一，词汇表的扩大使得模板的选取和建立发生困难;第二，连续语音中，各个音素、音节以及词之间没有明显的边界，各个发音单位存在受上下文强烈影响的协同发音(co-articulation)现象;第三，非特定人识别时，不同的人说相同的话相应的声学特征有很大的差异，即使相同的人在不同的时间、生理、心理状态下，说同样内容的话也会有很大的差异;第四，识别的语音中有背景噪声或其他干扰。因此原有的模板匹配方法已不再适用。实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大(carnegiemellonuniversity)的sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。这一时期，语音识别研究进一步走向深入，其显著特征是hmm模型和人工神经元网络(ann)在语音识别中的成功应用。hmm模型的广泛应用应归功于attbell实验室rabiner等科学家的努力，他们把原本艰涩的hmm纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面，以markov链为基础的语音序列建模方法hmm(隐式markov链)比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即n元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。20世纪90年代前期，许多著名的大公司如ibm、苹果、att和ntt都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：ibm公司推出的viavoice和dragonsystem公司的naturallyspeaking，nuance公司的nuancevoiceplatform语音平台，microsoft的whisper，sun的voicetone等。其中ibm公司于1997年开发出汉语viavoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统viavoice‘98。它带有一个32，000词的基本词汇表，可以扩展到65，000词，还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

国内研究现状：我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下，系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串)，这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%;并且可以识别普通话与四川话两种语言，达到实用要求。中科院自动化所及其所属模式科技(pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——pattekasr，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

本文设计的说话人确认系统由软、硬件两部分组成。

硬件部分的主要任务是通过麦克风和计算机上的声卡将与印尼信号转换为电信号，经过A/D转换，以数字信号的形式传入计算机；软件部分的主要任务是数字语音信号的分析和识别。

3. 实施方案、进度安排及预期效果

实行方案：

（1）硬件部分：

该设计主要的使用的资源有ld3320专用语音识别芯片、红外发射模块、电源模块、放大滤波模块、pwm、mic、步进电机、oled等。用户发出语音指令，mic将采集到的声信号转化为模拟电信号，放大和滤波模块对电信号进行处理。然后输入的电信号是通过语音识别芯片ld3320来进行识别处理，合成反馈语音信息，并传给单片机，单片机控制红外发射模块发送相应的红外编码指令。led灯部分需要进行红外遥控信号的接收和解码，分析并执行接收到的指令，进行对led开关和亮度调节,已经电机和oled显示的控制。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码