基于深度神经网络的语音编码技术研究开题报告
2020-02-10 23:15:26
1. 研究目的与意义(文献综述)
目的和意义:
语言在人类的信息传输中有着举足轻重的地位,相对于其他表达形式而言,它更简便有效。语音压缩是一种为了提高通信网中的信息传输效率及实现语音的高效存储,还需要对编码后的数字语音进行压缩的方法。其研究对于提高频带利用率,即利用更少的频带资源来传输更多的信息量具有重大意义,在移动通信、多媒体通信以及存储数字语音数据方面有着广泛应用。
近年来,深度神经网络在机器学习和计算机视觉领域取得了重大突破,并且深度神经网络的快速发展在信号处理方面起到了不可忽视的作用,尤其是在语音信号处理方面为其打开了新篇章。以微软、搜狗为代表的各顶级科技公司在这方面也投入了大量的人力、物力,大多数研究重点集中在语音识别和语音增强上,而对于语音压缩的相关研究很少。深度学习在信号处理中显示的巨大优势表明其在语音处理,包括语音压缩方面有很大的潜能等待开发。
2. 研究的基本内容与方案
基本内容与目标:
1、准备不同说话者、不同方言等情况下的宽带语音信号作为语音编码训练库,从原始语音信号中提取语音样本作为特征参数,训练一个端对端的语音编码框架;
2、构建基于深度神经网络的语音编码框架,框架由两部分构成:encoder部分学习输入语音中最优的紧凑表示,得到压缩后的编码信息,decoder部分从编码信息中重构出高质量的宽带语音。通过压缩、重构语音信号与其它约束项,找到给定码率下最高质量的语音信号,训练出性能优越的深度神经网络;
3. 研究计划与安排
2019年1月1日-2019年1月31日:阅读深度学习、语音信号基础与传统语音编码技术相关的文献,构建语音编码实验数据集;
2019年2月1日-2019年2月28日:针对性的学习编程语言、算法,理解目前现有的语音编码技术,并尝试搭建神经网络框架;
2019年3月1日-2019年3月31日:实现相关文献中的方法,找出目前语音编码技术中存在的不足;
4. 参考文献(12篇以上)
[1] kankanahalli s.end-to-end optimized speech coding with deep neural networks[j]. in: acoustics, speech and signal processing(icassp), 2018 ieee international conference on. ieee, 2018, pp. 2521-2525.
[2] shigeo morishima, h harashima, and y katayama.speech coding based on a multi-layer neural network. in: communications, 1990. icc’90, including supercomm technical sessions. supercomm/icc’90. conference record., ieee international conference on. ieee, 1990, pp. 429–433.
[3] t. dumas, a. roumy, and c. guillemot. autoencoder based image compression: can the learning be quantization independent? arxiv preprint arxiv:1802.09371, 2018.