计算机控制语音技术的研究与实现开题报告
2020-04-21 16:10:54
1. 研究目的与意义(文献综述)
21世纪,人类要不断地进行信息交流和传递,而在这一过程中,语音无疑是最为方便的工具和主要的交流媒介。所以,为了达到交流方便的目的,我们往往在人机系统中,采用语音识别系统。
语音识别系统的研究工作开始于20世纪50年代atamp;t贝尔实验室的audry系统,它是第一个可以识别10个英文数字的特定人孤立数字语音识别系统。我国语音识别研究也一直紧跟国际水平。国内中科院的自动化所、声学所以及清华大学等科研机构和高校都在从事语音识别领域的研究和开发。国家863智能计算机专家组为语音识别技术研究专门立项,并取得了高水平的科研成果。我国中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。
语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:
2. 研究的基本内容与方案
要建立一个完整特定人孤立词语音识别系统,通常包括语音的输入、语音的预处理(预加重、加窗分帧、端点检测等)、特征提取、训练与识别等几个环节。语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程。模式匹配中需要用到的参考模板通过模板训练获得。在训练阶段,用户将词汇表中的每个词依次说一遍作为模板保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板并与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。同时,还可以在一些先验知识的帮助下,提高识别的准确率。
其中重要的是语音合成及语音识别。语音合成技术有共振峰合成及线性预测合成。语音识别主要涉及到时间规整算法(dtw)。dtw是采用一种最优化的算法,通过将待识别语音信号的时间轴进行不均匀地扭曲和弯曲, 使其特征与模板特征对齐,并在两者之间不断地进行两个矢量距离最小的匹配路径计算,从而获得两个矢量匹配时累积距离最小的规整函数。这是一个将时间规整和距离测度有机结合在一起的非线性规整技术,保证了待识别特征与模板特征之间最大的声学相似特性和最小的时差失真。dtw解决了发音长短不一的模板匹配问题,是语音识别中出现较早,较为经典的一种算法。
最后利用matlab对系统进行仿真,并作出系统的识别结果。
3. 研究计划与安排
第一周:根据设计题目查阅收集相关参考文献资料,明确研究内容。
第二周~第三周:理解研究所需的相关参考文献及技术,确定技术方案,完成开题报告。
第四周~第十五周:进入设计论文阶段,完成任务书所要求的设计内容。
4. 参考文献(12篇以上)
[1] 边肇祺等.模式识别.北京:清华大学出版社,2011
[2] 刘郁林等译.自适应滤波算法与实现.北京:电子工业出版社,2010
[3] 朱民雄等.计算机语音技术.北京航空航天大学出版社,2013