端到端的语音合成中声码器方法研究毕业论文
2021-11-06 23:15:42
摘 要
论文主要调研了语音合成技术,首先了解了人体是如何发出语音的,然后基于此对人体语音生成建立物理模型,最终形成了主要两种语音合成方法,波形拼接法和统计参数语音合成法。对于统计参数语音法,一般采用深度学习技术来进行声学建模,而统计参数方法主要基于隐马尔可夫模型进行建立,其中声学建模和声码器是其中的关键技术。
论文主要研究了端到端系统中声码器的方法,首先对传统声码器以及构建声码器的前沿技术进行分析,然后选择设计了Tactron griffin-lim模型声码器和wavenet模型声码器用于合成语音,并进行仿真实验。其中griffin-lim声码器是一种特殊的声码器,其不需要相位信息就可以由频谱重建波形,主要根据的是帧之间的关系采用迭代算法来估计相位的信息。具体的做法为:从Linear-Spectrum中恢复相位,再通过短时傅里叶变化ISTFT还原波形。其端到端系统的结构为Encoder-gt;Attention-gt;Decoder-gt;Post-processing-gt;Griffin-Lim转换为声音波形。wavenet是一种基于CNN的采样点自回归模型,其采用了因果卷积,通过历史样本来预测未来信息;其采用空洞间距使得感受野随层数的升高而增大;同时模型中使用了残差网络及跳步连接来加速模型的训练速度,训练好wavenet即可生成语音波形。通过对Mel-Spectrum作为输入,为其添加语义信息,因为采样点的长度与Mel-Spectrum长度间的不匹配,需要使mel-spectrum进行长度对齐,方法为将Mel-spectrum直接复制采样到采样点的长度。实验结果表明:基于wavenet模型构建的声码器所合成的语音具有更好的自然度和流畅度,但是其生成语音的速率较慢,而griffin-lim生成语音较快,合成的语音自然度及流畅程度不及前者。
本文特色:回顾了语音合成的方法和传统声码器方法,最后基于卷积神经网络构造了wavenet声码器并且和griffin-lim声码器进行了对比实验。
关键词:语音合成;声码器;卷积神经网络;Griffin-lim;WaveNet
Abstract
This paper mainly investigates the speech synthesis technology, first understands how the human body emits speech, and then builds a physical model based on this for human speech generation, and finally forms two main speech synthesis methods, waveform stitching method and statistical parameter speech synthesis method. For statistical parameter speech method, deep learning technology is generally used for acoustic modeling, and statistical parameter method is mainly based on hidden Markov model, in which acoustic modeling and vocoder are the key technologies.
Main researches: This paper mainly studies the method of vocoder in end-to-end system. Firstly, it analyzes the traditional vocoder and the cutting-edge technology of building vocoder, and then chooses to design Tactron griffin-lim model vocoder and wavenet model vocoder. The encoder is used to synthesize speech and carry out simulation experiments. Among them, the griffin-lim vocoder is a special vocoder, which can reconstruct the waveform from the spectrum without phase information. It mainly uses an iterative algorithm to estimate the phase information based on the relationship between the frames. The specific method is: recover the phase from Linear-Spectrum, and then restore the waveform by short-time Fourier change ISTFT. The structure of its end-to-end system is Encoder-gt; Attention-gt; Decoder-gt; Post-processing-gt; Griffin-Lim converted to sound waveform. Wavenet is a CNN-based sampling point autoregressive model, which uses causal convolution to predict future information through historical samples; it uses hole spacing to make the receptive field increase with the number of layers; at the same time, the model uses The residual network and step-by-step connection accelerate the training speed of the model. After training the wavenet, a voice waveform can be generated. Adding semantic information to the Mel-Spectrum as input, because the length of the sampling point does not match the length of the Mel-Spectrum, the length of the mel-spectrum needs to be aligned, the method is to directly copy and sample the Mel-spectrum to the sampling point length.
Research results: The experimental results show that the speech synthesized by the vocoder built on the wavenet model has better naturalness and fluency, but the rate of generating speech is slower, while griffin-lim generates speech faster, and the naturalness of the synthesized speech is Fluency is not as good as the former.
Characteristic: Review the method of speech synthesis and the traditional vocoder method, and finally construct a wavenet vocoder based on convolutional neural network and compare with griffin-lim vocoder.
Key Words:Speech synthesis;Vocoder;CNN;Griffin-lim;Wavenet
目 录
第1章 绪论 8
1.1 研究背景及意义 8
1.2 国内外研究现状 8
1.3 研究方法及技术手段 9
1.4 本论文主要结构 9
第2章 语音合成与声码器方法 10
2.1 语音合成技术概述 10
2.2 语音波形的生成过程 11
2.3 常见语音合成方法 12
2.3.1 波形拼接方法合成语音 12
2.3.2 统计参数合成语音 13
2.4 主流声码器分析 16
2.4.1 线性预测分析语音合成方法 17
2.4.2 共振峰语音合成方法 18
2.4.3 STRAIGHT分析语音合成方法 20
2.4.4 Griffin-lim语音合成方法 21
2.5 本章小结 22
第3章 基于WaveNet的声码器 23
3.1 声码器的发展概述 23
3.2 WaveNet模型 24
3.2.1 卷积神经网络概述 24
3.2.2 空洞因果卷积 26
3.2.3 门控激活函数及残差网络结构 27
3.3 基于wavenet模型构造声码器 29
3.4 实验与结果分析 30
3.4.1 实验配置及步骤 30
3.4.2 实验结果分析 31
3.5 本章小结 34
第4章 总结与展望 35
4.1 总结 35
4.2 展望 35
参考文献 36
致 谢 37
第1章 绪论
1.1 研究背景及意义
众所周知,语音这一技术很早就开始发展,并且在当下该技术大量的应用于人们日常生活中。举一个很简单的日子,到了今天,比如你拥有一款小米手机,你可以呼唤你的小爱同学去帮你拨打电话、让她来播放音乐、让她帮你订个起床闹钟等等,无需自己手动去开启这些功能,你仅仅只需要和她进行对话,她就能帮你做这些事情。这只是一个很日常化的例子,语音合成以及语音识别技术被运用于天气预报、买票系统的自动服务等等方面。语音合成技术已经从最初开始的机械合成慢慢地发展到现在采用深度学习算法进行合成,而且每年大量的神经网络模型被提出,将这些技术用于语音合成是当今很流行的一种方法,提高了合成语音的自然度、流畅程度本论文主要去研究语音合成技术当中关于声码器是如何来提取语音的特征,还有如何对语音波形进行重建。了解语音合成中声码器的工作原理,并进行语音合成是本论文的主要目标,通过学习这个方面的知识,可以使自己进一步的了解语音这一庞大的领域,并且对以后研究其他未了解领域方面,也能起很大的推动作用。
1.2 国内外研究现状
声码器作为基于统计参数语音波形合成方法中的重要技术,从近代开始以来一直被研究人员所青睐。在最近几十年的发展中,比较流行的一种声码器采用了源-滤波器的思想,同时采用了STRAIGH算法来进行语音波形的合成。该声码器利用语音的频谱、基频等特征对所生成的语音波形进行重构,取得了良好的效果,但是使用这种思想的声码器忽略掉了语音波形中的一些相对来说重要的因素,这导致了采用统计参数方法的系统所合成的语音质量难以有质变的提升。
下面将从以下三个方面来解释这个原因:首先,传统声码器合成语音时在频谱特征细节方面有所忽略,这体现在对高维度的频谱包络通过一定的算法进行降维,而得到相对来说较低维度的语音倒谱、线谱等声学特征。而采用该特征作为滤波器的表征,这造成了产生频谱细节的丢失。其次,传统声码器合成语音时在相位信息方面有所忽略,这体现在生成新的语音波形时所采用的语音相位信息一般来说是依赖假设以及人工设计来完成的。最后,传统声码器合成语音时在对原始语音的波形采样点间非线性相关性进行了忽略,这体现在对声道滤波过程的建模上,一般来说传统语音声码器采用的是时变线性滤波器。