基于文本相关的声纹识别研究毕业论文
2021-10-25 21:00:16
摘 要
本文是在谷歌的GE2E模型的基础上完成了文本相关声纹识别系统的复现。GE2E模型是一种端到端的声纹识别模型,它是基于深度学习进行说话人的建模。GE2E模型是将经过特征提取后的帧级特征输入到一个多层的LSTM网络,得到一个说话人模型,再经过打分函数进行测试认证。本文研究了端到端的声纹识别系统在特征提取、说话人建模、打分模块各个环节的过程和原理。分析了GE2E模型网络结构存在的问题,并基于Mish激活函数对模型进行改进,在服务器上进行实验并分析实验结果。
本文重点分析了GE2E模型的LSTM网络在训练过程中存在的问题,由于网络中的ReLU激活函数存在非可导的性质,会出现梯度消失的问题。在分析一种新的激活函数Mish后,发现这种激活函数在具有ReLU功能性的同时,还是连续可导的,在训练稳定性、平均准确率、峰值准确率等方面都有了全面的提高。
实验所用的数据集是文本相关的说话人数据集voxceleb1,它被划分为训练集和测试集,分别有1251个说话人和80个说话人组成。分别用两种模型在该数据集上进行测试,实验结果表明:应用了Mish激活函数的模型的均等错误率(EER)比GE2E模型低,而准确率(ACC.)有所提高。故Mish激活函数能够有效提升模型的性能。
关键词:端到端的声纹识别;GE2E模型;Mish激活函数
Abstract
This paper completes the reproduction of the text-related voiceprint recognition system based on Google's GE2E model. The end-to-end voiceprint recognition system is mainly based on deep learning for speaker modeling. The GE2E model is to input the frame-level features after feature extraction into a multi-layer LSTM network to obtain a speaker model, and then pass the scoring function for testing and certification. This paper studies the process and principles of the end-to-end voiceprint recognition system in each link of feature extraction, speaker modeling, and scoring module. I analyzed the problems existing in the network structure of the GE2E model, and improved the model based on the Mish activation function. Experiments were performed on the server and the experimental results are analyzed.
This paper mainly analyzing the problems of the LSTM network of the GE2E model during the training process. Due to the non-differentiable nature of the ReLU activation function in the network, gradient disappearance will occur. After analyzing a new Mish activation function, it is found that the Mish activation function has ReLU functionality and is still continuously derivable, with a comprehensive improvement in training stability, average accuracy, and peak accuracy.
The data set used in the experiment is the text-related speaker data set voxceleb1, which contains 1251 speakers as the training set and 80 speakers as the test set. Two models were tested on this data set. The experimental results show that: The equal error rate (EER) of the model using the Mish activation function is lower than that of the GE2E model, while the accuracy rate (ACC.) Is improved. Therefore, the Mish activation function can effectively improve the performance of the model.
Key Words:end-to-end speaker verification; GE2E model; Mish activation function
目 录
摘 要 I
Abstract II
第1章 绪论 3
1.1 研究背景及意义 3
1.2 国内外研究现状 3
1.3 研究内容与技术路线 5
第2章 端到端的声纹识别模型 6
2.1 模型描述 6
2.2 特征提取 6
2.2.1 MFCC特征与FBank特征 7
2.2.2 特征提取过程 7
2.3 模型实现 8
2.3.1 GE2E的网络结构 8
2.3.2 GE2E存在的问题 9
2.3.3 Mish激活函数的原理 10
2.3.4 应用Mish激活函数 11
2.4 模型评估 11
2.5 小结 11
第3章 实验过程及结果分析 13
3.1 数据集与实验环境 13
3.1.1数据集 13
3.1.2 实验环境及配置 13
3.2 实验过程 13
3.3 实验结果与分析 14
3.3.1 实验结果 14
3.3.2 结果分析 14
第4章 总结与展望 15
4.1 总结 15
4.2 展望 15
参考文献 16
致谢 18
第一章 绪论
1.1 研究背景及意义
声纹识别(Speaker Recognition)顾名思义是根据人声音的特异性来进行身份识别、认证的技术。声纹识别与指纹识别类似,人的声音也是有独特的“纹理”的,这种特异性就可以作为区分、确认说话人的数据信息。作为人们传递信息、交流的一种媒体,语音信号含有丰富的信息。第一,语音含有与说话者无关的信息,这种信息主要是声音的基本性质;第二,语音还含有说话者相关的信息,主要与人的音色有关。人脑有专门的功能区域,能够轻易地从语音中提取到各种与说话者相关和无关的信息,因此语音是人类最自然的交流方式。然而,让计算机能够像人类一样快速的分辨出语音中的信息却是十分困难的。人们希望能够换一种新的交互方式,能够使用语音这种方便快捷的交互方式来与计算机进行交流。另外,行业专家、投资者们对语音识别技术的研发投入也在不断地加深,尝试使用更好的硬件和更新的算法来从语音信号中提取并识别更多有用的信息,以此来满足实际生活场景的需求。
说话人识别按照任务类型可以分为两种,一种是说话人确认 (SV, Speaker Verification) ,说话人确认的任务是先给定一个目标说话人的身份并建立模型,然后判断测试语音中的说话人是否与目标说话人匹配。另一种是说话人辨认(SI,Speaker Identification),说话人辨认则是给定一段语音,在已有的记录的说话人信息库中找到与目标匹配的说话人身份。在说话人识别领域,一般以说话人确认作为主要的关注点。根据测试音频语音的文本内容相关度来进行划分,说话人识别又可以分为基于文本相关说话人识别任务(Text-dependent Speaker Recognition Task)和基于文本无关说话人识别任务(Text-independent Speaker Recognition Task)。文本相关说话人识别主要的不同在于它的语音集被限定在了一个固定的音素集合里,由于文本是给定的,所以相较于文本无关说话人识别任务要简单,注册和测试语音片段的长度也较短。因为任务相对简单,因此识别的准确率较高。
声纹识别在未来的很多领域中会有很好的应用前景。比如公共安全、声纹密码、信息检索、军事应用等等。可以配合人脸识别、指纹认证构成安全级别极高的认证系统。