基于深度神经网络的语音编码技术研究文献综述

2020-04-15 18:05:50

1．目的及意义

目的和意义：

语言在人类的信息传输中有着举足轻重的地位，相对于其他表达形式而言，它更简便有效。语音压缩是一种为了提高通信网中的信息传输效率及实现语音的高效存储，还需要对编码后的数字语音进行压缩的方法。其研究对于提高频带利用率，即利用更少的频带资源来传输更多的信息量具有重大意义，在移动通信、多媒体通信以及存储数字语音数据方面有着广泛应用。

近年来，深度神经网络在机器学习和计算机视觉领域取得了重大突破，并且深度神经网络的快速发展在信号处理方面起到了不可忽视的作用，尤其是在语音信号处理方面为其打开了新篇章。以微软、搜狗为代表的各顶级科技公司在这方面也投入了大量的人力、物力，大多数研究重点集中在语音识别和语音增强上，而对于语音压缩的相关研究很少。深度学习在信号处理中显示的巨大优势表明其在语音处理，包括语音压缩方面有很大的潜能等待开发。

现代的压缩技术，如MP3、JPEG以及AMR-WB大多数都是手动设计的，基于深度神经网络的端对端矢量量化的语音编码技术除去了传统的特征工程的必要性，并且优化了宽带语音编码管道的所有步骤，包括压缩、量化、熵编码以及解压缩，所呈现的结果在一定的码率范围之内与AMR-WB旗鼓相当。

国内外的研究现状分析：

语音压缩技术作为语音处理中的关键步骤，已被广泛应用于通信领域中。压缩技术在确保能够正确接收输入语音的情况下提高频带利用率，充分利用频带资源，因此基于深度神经网络的端对端语音编码技术具有重要的理论价值和广阔的应用前景。XuYong等人(2013)开始使用深度神经网络(DNN)用于语音去噪，DingLiu(2014)尝试了一系列使用深度学习模型进行语音去噪的实验。目前，压缩语音的方法主要有使用隐马尔科夫模型的语音编码系统以及端对端矢量量化的方法。

隐马尔科夫模型的使用是基于语音识别和合成技术。在传输过程中，传输的信息将被分为片段，一个片段一个片段地传输，这样可以达到降低语音比特率，即压缩的效果。然而，语音识别的编码器可能会产生一些片段错误，由于片段的数量很多，所有片段的错误将会异常庞大，而这些错误会进一步传播到信息编码中，从而导致输出的语音信号不连续，也会使收听者听起来很不自然。

除此之外，大多数基于因马尔科夫模型的系统设计复杂。编码器包含了声学隐马尔可夫模型，语言模型以及增量搜索模块。与编码器相似，解码器也需要声学隐马尔科夫模型，包括语音合成系统以及增量语音声码器。复杂的系统则意味着更多的时间来传播信号。

在神经网络中利用端对端矢量量化的方法可以优化语音编码，主要是因为它重新构造了整个压缩管道，直接从原始语音信号中端对端地优化了宽带语音编码管道的所有步骤，包括压缩、量化、熵编码以及解压缩。而该方法的网络体系结构是受残差神经网络和自动编码器的启发，其模型由一个编码器子网络和一个解码器子网络组成，并且将编码器子网络和解码器子网络一起训练。量化是管道中必不可少的操作，量化分为矢量量化和标量量化，本文采用的是标量量化。神经网络通过反向传播更新参数，这就要求损失函数是可微的，而量化的过程有精度损失，操作不可微，因此也就不能使用标准的梯度下降算法来训练网络。为了解决不可微的问题，提出软分配、硬分配的概念，并采用由Agustsson等人提出的可微近似的方法。最后通过最小化目标函数在网络中训练出最合适的参数。本文将以该思想为基础，并在其上做出改进，使用矢量量化进行编码。

{title}

2. 研究的基本内容与方案

{title}

基本内容与目标：

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码