基于深度学习的语音识别方法研究毕业论文
2021-11-05 19:24:07
摘 要
语音识别(Automatic Speech Recognition,ASR)是以人类发出的语音信号为研究对象,通过对语音信号进行处理和模式识别以让设备或应用能够自动识别甚至理解人类口语。语音识别技术就是通过一系列算法程序,将输入的各种语音音频数据输出为相对应的文本或根据输入的语音对设备或应用发出相应的指令的技术。语音识别是一门交叉学科,涉及面很广,它在语音输入和特征提取阶段需要语音学、声学、信息学的支持,在音素-字符解码阶段需要语言学的知识,整体还借助了模式识别理论、神经网络理论等最新理论,与多种学科理论关系密切。
传统语音识别通常采用基于统计机器学习的隐马尔科夫模型(Hidden Markov Model,HMM)做状态识别加上高斯混合模型 (Gaussian Mixture Model,GMM) 做分布概率计算。由于一段语音中的音素长短不一,传统方法的局限在于每个输入的语音信号数据都要进行人工标注对齐,但人力很难准确对齐语音信号中连续音素序列,难以准确划分语音信号中音素的边界,这样一来语音识别的准确率,适应性,泛化性很难做到完美。
现在各大厂商和研究机构一般都采用基于深度学习的端到端(End to End)的学习方法,端到端的模型旨在解决繁杂的人工音素标注对齐工作和发音词典的制作工作,只通常一整个模型就直接实现从语音数据的输入到相对应的文本解码识别。目前主流的基于深度学习的语音识别模型大致分为两种:一种是基于CTC算法的训练模型;一种是基于注意力算法的训练模型。本文将分别使用这两种模型进行对语音识别数据集的训练,研究和比较它们的训练性能和学习效果。
关键词:语音识别;深度学习;机器学习;自然语言处理;人工智能
Abstract
Automatic speech recognition (ASR) is the research object of human speech. Through the processing of speech signal and pattern recognition, the machine can automatically recognize and even understand human spoken language. Speech recognition technology is a technology that outputs all kinds of input speech audio data into corresponding text or instruction through a series of algorithm programs. Speech recognition is an interdisciplinary subject, which is closely related to acoustics, phonetics, linguistics, information theory, pattern recognition theory and neurobiology.
Traditional speech recognition usually uses hidden Markov model (HMM) and Gaussian mixture model (GMM) based on statistical machine learning. The limitation of traditional methods is that every input speech signal data needs to be manually labeled and aligned, but it is difficult for human to accurately align the continuous phoneme sequence in the speech signal and accurately divide the phoneme boundary in the speech signal, so that the accuracy, adaptability and generalization of speech recognition are difficult to be perfect.
At present, the major manufacturers and research institutions generally adopt the end-to-end learning method based on deep learning. The end-to-end model aims to solve the complicated work of artificial phoneme annotation and alignment and the production of pronunciation dictionary. Only a whole model can directly realize the input of speech data to the corresponding text decoding and recognition. At present, the mainstream speech recognition model based on deep learning is roughly divided into two kinds: one is based on CTC algorithm training model; the other is based on attention algorithm training model. In this paper, we will use these two models to train the speech recognition data set, study and compare their training performance and learning effect.
Key Words: Speech recognition; Deep learning;Machine learning; Natural Language Processing; Artificial intelligence
目录
第一章 绪论 2
1.1研究背景与意义 2
1.2研究现状 2
1.3本文研究目标及内容 3
1.4论文结构 3
第二章 语音识别方法研究 4
2.1语音识别 4
2.1.1语音识别定义 4
2.1.2语音识别的流程 4
2.2语音识别的方法研究 6
2.2.1基于统计机器学习方法的语音识别模型 6
2.2.2基于深度学习的语音识别模型 6
2.2.4语音识别的方法比较 6
2.3语音识别有关算法概述 7
2.3.1 Mel倒频谱系数(MFCC)算法概述 7
2.3.2 CTC算法概述 9
2.3.3 注意力算法概述 10
第三章 两种语音识别模型构建实现与比较 12
3.1数据获取 12
3.2基于CTC的DeepSpeech模型实现 13
3.2.1模型构建 13
3.2.2训练 15
3.2.3解释模型 16
3.3基于注意力的LAS模型实现 16
3.3.1模型构建 16
3.3.2 训练 18
3.3.3 解释模型 19
3.4两种模型的比较和分析 19
3.4.1 性能比较 19
3.4.2 优缺点分析 20
第四章 结束语 21
4.1论文工作总结 21
4.2问题与展望 21
参考文献 22
第一章 绪论
1.1研究背景与意义
语音交互功能在现在这样一个智能的时代,信息的时代,早已成为各大智能设备、智能应用的必备功能,将语音转换成机器可以识别的数据,将语音用作人机交互的桥梁,是人们长久以来都梦想,现在都将变为现实。[1]
现代社会自从迈入设备智能化时代。各大设备制造商纷纷将设备智能化作为未来产业升级的核心,涌现了大量以语音交互为卖点的智能设备。语音识别本是上个世纪就已出现的技术,但半导体器件性能的极大发展使得原本难以使用和发展的深度学习技术有了重大突破。目前各大先进企业厂商纷纷研究基于深度学习的语音识别技术。从传统统计机器学习到深度学习,从简单DNN到RNN,CNN架构,从有穷状态机到编码解码模型,端到端思想,近年来的基于深度学习的研究论文使得语音识别准确率飞速提升,逐渐接近甚至超过人的自然识别水平,使得在各种设备、各种应用上采用的语音识别技术迅速成熟,逐渐能够胜任人机交互的工作需求,语音识别技术的成熟也促进了设备、应用智能化转型。[2]