基于声纹识别的语音分离算法研究毕业论文
2021-12-04 19:26:19
论文总字数:17666字
摘 要
语音信号对于在人们的日常生活中是非常重要的,同样也是人机交互的天然工具,无论在智能家居、语音识别、智能机器人等多个领域都获得了广泛的应用。就像在鸡尾酒会场一样,人们讲话会受到各种噪声干扰,而如何在嘈杂的环境中听清楚我们想要的信息,便是一件非常困难的事情。
从混合语音中分离出目标语音被称为语音分离问题,在本文中我们使用ResCNN和GRU架构进行试验,以提取声学特征,然后使用均值池来生成话语级级说话人嵌入,并基于预先相似度使用三重态损失函数(triplet loss)进行训练。
之后将提取到的声学特征用于混合语音分离,我们使用了话语级置换不变训练(UPIT)技术。至于UPIT,它是以最小的均方误差最小化所选择的置换,而不区别于其它置换。通过刚才提取道德深度嵌入特征,用作UPIT的输入,以直接分离不同的说话人,最后,通过联合训练,来优化时机的分离目标,此外,为了最大化每个置换的距离,将判别式学习用于整个模型的优化。
我们的实验是在VCTK混合语音数据集上进行的。实验结果表明,该模型实现了混合语音分离,达到了较好的性能。
关键词:语音分离;深度嵌入;三重态损失;UPIT;判别学习
Abstract
Speech signal is very important in people's daily life, and it is also a natural tool of human-computer interaction. It has been widely used in smart home, speech recognition, intelligent robot and other fields. Just like in a cocktail party, people's speech will be disturbed by various noises, and how to hear the information we want in a noisy environment is a very difficult thing.
The separation of target speech from mixed speech is called speech separation problem. In this paper, we use ResCNN and GRU architecture to extract acoustic features, then use mean pool to generate speech level speaker embedding, and use triple loss function to train based on pre-similarity.
After that, the extracted acoustic features are used for mixed speech separation, and we use speech level displacement invariant training (UPIT) technology. As for UPIT, it is a permutation selected by minimizing the mean square error, which is not different from other permutations. In order to separate different speakers directly, we just extract the moral depth embedding feature, which is used as the input of UPIT. Finally, through joint training, we optimize the separation target of opportunity. In addition, in order to maximize the distance of each replacement, we use discriminative learning to optimize the whole model.
Our experiment is carried out on VCTK mixed voice data set. The experimental results show that the model realizes the mixed speech separation and achieves good performance.
Key Words: Speech separation; Deep embedding; Triplet loss; UPIT; Discriminative learning
目录
第1章 绪论 1
1.1研究背景及意义 1
1.2国内外研究现状 1
1.3研究内容和技术路线 3
1.3.1 研究内容 3
1.3.2 技术路线 3
第2章 声纹识别及混合语音分离模型 5
2.1模型描述 5
2.2 Deep Embedding特征提取 5
2.2.1 神经网络架构 5
2.2.2 三元组损失函数 7
2.3基于Deep Embedding的混合语音分离 9
2.3.1判别式学习 9
2.3.2联合训练损失函数 9
第3章 实验过程及结果分析 11
3.1 VCTK数据集 11
3.2 实验环境 11
3.3 实验过程 11
3.3.1 预处理 11
3.4 实验结果及分析 13
3.4.1实验结果 13
3.4.2实验分析 13
第4章 总结及展望 16
4.1 总结 16
4.2 展望 17
参考文献 18
致谢 20
第1章 绪论
1.1研究背景及意义
语音信号在我们的日常生活中随处可见,他与电信号,光信号一样,也是我们必不可缺的信号之一,随着科技的进步,他与计算机的交互也愈发的密切,无论是在语音识别还是智能家居、智能机器人等多个领域都取得了广泛的应用。但是就像在晚宴的现场一样,人众多,也非常的嘈杂,对话往往会受到各种噪声干扰,使我们在提取所需要的语音信号时有着非常大的困难。根据世界卫生组织于2016年公布的数据显示,该年全球听力损失的人群达5.5亿人,2015年全球的助听器的用户数1300万台,低于10%的验配率,在中国更低,只有4%左右。纵然,Google Now和Apple Siri,科大讯飞等公司研发的自动语音处理系统在过去几年中都取得了很大进展,但是在处理比较复杂尤其是不完整的语音时,其实用性会大打折扣。而语音分离是这些自动语音识别设备的前端技术,设计能够提取混合语音中的目标语音对于自动语音识别系统具有非常重要的意义。
而从混合语音中分离出我们想要的目标说话人的语音片段,便是我们所说的“鸡尾酒”问题。在近20年的发展中,许多我们日常可见的产品,如助听器和智能语音识别技术的推动下,许多优秀的科研工作者已经提出了许多算法和系统来处理语音分离问题。而单声道语音分离研究相比于多声道则是更为理想的研究对象,因为其具备在设备上实现,成本较低,对部署的限制也较少等多方面的有点。单声道语音分离研究也非常具有挑战性,即便经过了数十年的努力,单声道语音分离问题仍然没有能很好的解决。
随着卷积神经网络、循环神经网络、深度神经网络等技术的兴起,其都被成功的应用在我们日常生活的各个领域。而以卷积神经网络为代表的一系列研究的最新技术则是特别适合于视觉和语音的研究。因为卷积神经网络具有优异的性能,训练中可扩展性较好,预测时间较快。这些功能使卷积神经网络可以很好的提高语音分离性能。
1.2国内外研究现状
“鸡尾酒”问题一直是语音学术界的一大难题。而最先提出该问题的学者是Cherry,他于1953年提出该问题[1],人可以很轻松地在嘈杂地环境中分辨出自己关注的声音,如何让计算机也像人一样复杂地语音环境中分离出目标说话人的语音片段,这就是“鸡尾酒”问题。随着时间的推移,我们在该领域也在不断地取得突破性进展。
在20世纪末,科学家们从信号处理的角度去尝试解决该问题,在单信道下提出了高斯混合模型和非负矩阵分解方法等多种方法。1991 年,Jeanny Herault和Christian Jutten提出了独立成分分析(ICA)算法[2]。1994年,Perrier Common 发表论文《Independent component analysis, a new concept》[3],ICA算法可以作为盲源分离的主要研究方法。而1995年,T.J.Sejnowski和A.J.Bell他们在独立成分分析 (ICA)算法的基础上又实现了非常大的突破[4],第一次成功实现并分离多个说话人的语音片段,非常的了不起。在而在1996 年,张贤达教授出版过相关语音信号一书[5],该书比较详细的介绍了盲源分离的相关内容为我们之后的研究铺平了道路。
2004年,李远清教授,根据源语音信号的稀疏性提出并且利用 K-means 聚类算法、 L1 范数范式,以及最小化值原则成功分离出目标语音信号[6]。2004年,Hoyer根据源语音信号的稀疏性等其他特性提出了非负矩阵分解(NMF)算法。2006年,Michal提出并使用了K-SVD算法设计一个过完备的字典从而实现语音分离。2008年,A.Cichocki 等在总结NMF算法的基础上,使用稀疏性以及平滑性等先验知识对分解目标添加一定的约束性条件,取得了较好的效果[7]。现在非负矩阵分解(NMF)的盲源分离方法在各种实际问题中已经被人们广泛应用。
而近十年,科学家们发现深度学习和机器技术,在图像识别以及声纹识别领域具有强大的优势。Wang根据DNN的特点以及循环神经网络(RNN)在处理时序性数据效果非常突出的特点,首次将DNN、 RNN应用到语音分离,取得了不错的成绩。[8,9,10]。2014 年,Isik Y 等人使用 RNN 神经网络结合深度聚类算法实现了单通道语音信号的分离[11]。2016年,Hershey等人在深度学习框架中[12],将嵌入向量分配到频谱图中,并优化K-means聚类算法,降低了单词错误率。
2017年,Dong Yu等人提出了一种新颖的深度学习训练准则,称为“不变量不变训练”(PIT),对WSJ0和丹麦语混合语音分离任务的PIT进行了评估,发现它与非负矩阵分解(NMF),计算听觉场景分析(CASA)和DPCL相比具有优势,易于实施,并且可以很好地概括看不见的说话者和语言[13]。Zhuo Chen等人通过在声学信号的高维嵌入空间中创建吸引点来提出一种用于单通道语音分离的新颖深度学习框架[14]。Chao Li等人提出了Deep Speaker这样一种新的模型,其性能优于基于DNN的i-vector基线[15]。
2018年,ARIEL EPHRAT等人提出了一种用于隔离和增强视频中需说话者语音的模型,同时提取音频和视觉特征,并将其输入到联合试听语音分离模型中大获成功[16]。Quan Wang等人基于d矢量的说话人验证系统的成功经验,开发了一种基于d矢量的新方法来进行说话人区分。结合i-vector和d-vector的四种聚类算法进行了实验,观察到,基于d矢量的系统比基于i矢量的系统获得的DER明显更低[17]。并在次年通过频谱图过滤进行目标语音分离,证明了使用经过区别训练的扬声器编码器来调节语音分离任务的有效性[18]。
1.3研究内容和技术路线
1.3.1 研究内容
1.训练一个基于声纹识别神经网络模型,提取目标说话人的语音特征。基于声纹识别神经网络模型训练可提取说话人独特语音特征的分类模型。使用训练好的模型提取出目标人的语音特征,为从混合语音中分离目标语音做好预处理工作。
2.训练一个基于语音分离神经网络模型,分离出目标说话人的音频。训练输出特定说话人音频的网络,该网络有两个输出,一个是声纹识别网络输出的说话者特征,另一个是带噪声的多人对话音频。根据提取到的说话者特征参数,分离出目标说话人的音频。
1.3.2 技术路线
该系统的主要功能由两部分实现:①提取目标说话人的特征参数;②系统训练后从多个说话人的混合语音信号中,根据提取到的目标说话人的特征参数进行语音分离,保留目标说话人的音频。如图1.1所示。
请支付后下载全文,论文总字数:17666字