基于循环神经网络的语音频带扩展技术文献综述
2020-05-04 21:17:21
1.目的和意义
语音是人类最主要的交流、交互方式之一。从次声(20Hz)到超声(20kHz)频率范围的声音,人类都可以感知到。在目前的公共交换电话网和一些无线通信系统中,由于受到通信网络中多方面因素的影响,语音信号在通信过程中仅仅能够保留低频部分进行传输,这一问题严重影响了传输语音的质量。研究表明,语音信号中高频信号的缺失会导致语音质量严重下降。但是受到历史原因和经济成本等诸多因素的约束,现在的通信系统及通信网络很难再较短时间内得到大幅度的提升和更新。因此能够利用输入的频带受限语音,恢复或扩展出由通信系统中信道带宽等因素所导致缺失的高频成分的频带扩展技术,对于提升目前已有通信系统的通信语音整体音质和用户体验具有极其重要的意义。
语音信号频带扩展技术并非仅仅只能应用在实时通讯系统中,一个精准高效的频带扩展算法同样可以结合语音研究领域中其他研究方向的技术方法,可以进一步改善相应研究方向的系统性能。比如频带扩展技术可以应用到自动语音识别中,窄带的电话语音同全带语音相比,其识别正确率往往较低,但经过频带扩展处理的电话音的识别正确率可以得到较为明显的提升。频带扩展同样也可以被应用到语音增强等其他研究方向中,可以进一步提升相应语音的信噪比。因此频带扩展技术对于语音信号处理其他领域的研究也具有一定的参考价值。
2.国内外的研究现状
近年来,从频带受限的窄带信号恢复原始全频带信号的频带扩展技术已经成为语音信号处理领域的研究热点之一,吸引了众多研究机构与通信运营商、移动电话厂商、网络电话服务商等工业界的广泛关注,研究人员已经提出了很多不同形式的频带扩展方法。总的来说,整个语音信号频带扩展的技术方法可以分为非盲式和盲式两大类研究方法。非盲式的频带扩展方法由于在接收端解码时收到了附加的高频信息,因此能够较好地恢复缺失的高频成分。而盲式的在语音编码和信道传输过程中,不需要添加任何高频成分的相关信息,只是直接利用接收的低频语音来自动恢复出缺失的高频分量。因此盲式频带扩展技术是语音频带扩展研究领域的重点。
现阶段在众多盲式频带扩展方法中,基于神经网络的频带扩展方法成为了整个研究方向的主流方法。循环神经网络可以利用长短时记忆单元对长时序列进行建模,并克服梯度消失或爆炸等问题,同传统HMM、DNN方法相比能够改善合成语音的音质,达到更好的效果。由谷歌DeepMind团队提出的WaveNet模型在语音合成任务以及ByteNet模型在机器翻译任务中所取得的成果,将其核心的扩张卷积神经网络引入到频带扩展中,该方法直接在波形上进行建模,能够有效规避频率转换和相位估计不足等问题,取得了同RNN等较为流行方法相比更好的重建效果。
{title}2. 研究的基本内容与方案
{title}1、基本内容:
(1)窄带、宽带语音训练库构建:准备不同说话者、不同语言等情况下的宽带语音信号,将宽带语音降频率为窄带语音,降频率后窄带语音和与之对应的宽带语音一同构建成一个较为完备的语音频带扩展训练库;
(2)特征参数提取与深度神经网络训练:首先设定语音信号分析参数,逐帧提取带窄带语音和与之对应的宽带语音的特征参数,然后构建深度神经网络,训练窄带语音与宽带语音在特征参数域内的非线性拟合关系,选择合适的特征参数和训练性能更为优越的深度神经网络是该研究最为核心的部分;
(3)特征参数扩展与语音合成:将测试用窄带语音转换到特征参数所在域,利用深度神经网络所学习的窄带语音与宽带语音之间的拟合关系,预测宽带语音的特征值,然后通过反变换合成宽带语音信号。