语音信号盲源分离方法研究与实现开题报告
2020-02-18 19:25:10
1. 研究目的与意义(文献综述)
语音信号盲源分离主要研究从检测到的多路混合语音信号中恢复出不可监测的单个语音源信号的问题。该问题最早起源于人们对“鸡尾酒会”问题的研究。在某个聚会上,我们正在相互交谈,同一时刻同一场景下其他人的交谈也在同时进行着,可能还有乐队的音乐伴奏,这时整个会场上是一片嘈杂。但我们能够在这混乱的众多声音中很清晰的听到对方的话语,即使我们偶尔走神,将精力放在乐队奏出的音乐时,我们也同样可以听清楚音乐的主旋律。这种可以从由许多声音所构成的混合声音中选取自己需要的声音而忽视其他声音的现象就是“鸡尾酒会效应”。如何在这种从观察到的混合信号中分离出源信号的问题就是所谓的盲分离(blind signal separation, bss)问题,有时也被称为盲源分离(blind source separation)问题。
早在1986年,法国学者jeanny herault和christianjutten提出了递归神经网络模型和基于hebb学习律的学习算法,以实现两个独立源信号混合的分离,这一篇开创性论文的发表使盲源分离问题的研究有了实质性的进展。虽然该方法不能实现多于两个源信号的分离,但是这项研究工作让学者们意识到盲源分离的发展和应用前景,打开了信号处理领域一扇新的大门,受到学者们的热切关注,在此后的二十多中,盲源分离问题已逐步成为该领域研究的热点,在理论和实际应用上都得到了很大的进步。1993年,cardoso提出基于高阶统计的联合对角化盲源分离方法并应用于波束成形技术。1994年由common最早提出了有代表性的基于最小互信息的independent component analysis(ica)方法,他系统分析了瞬时混合信号的盲源分离问题,同时引入独立分量分析的概念,界定了解决bss问题的ica方法的基本假设条件,他对盲源分离问题的研究贡献,让其发展有了一条清晰的道路,并且让之前学者们提出了新的算法或优化不再缺乏理论依据。几年之后,芬兰学者hyvarinen和oja等人基于源信号非高斯性峭度,提出了fastica算法,该类算法具有较快的收敛速度来提取单个具有正或负峭度的源信号,因此在大规模数据处理中得到了广泛应用。到现在,标准的ica算法已经基本完善,如有fastica算法、拓展infomax算法、easi算法等。数字信号处理方面的理论和技术不断发展,使学者们对这方面的研究也变得愈加广泛深入,因而近些年来又有许多新的算法被提出。例如douglas等人提出了spatio-temporalfastica算法,它与时域算法相结合,利用多通道自适应分离滤波器来得到预白化的数据,同时估计混台矩阵的阶数,从而进行盲源分离;tichavsky等人提出了barbi算法,它是一种近似牛顿算法,因此在高维情况下收敛速度很快且算法的计算循环的代价也很小,在分离分块平稳高斯自回归过程的瞬时线性组合时,该算法也有显著效果; tan、wang等人提出了基于genetic algorithm的盲源分离算法,通过genetic algorithm来最小化信号的非线性混合度,最终实现盲源分离。
20世纪90年中期开始,我国国内信号处理领域的研究人员也积极地开展了这方面的研究工作,国内较早开展盲信号处理理论和应用技术研究的是何振亚教授,在基于特征分析和高阶谱的盲源分离和盲反卷积方法中提出了一系列新的基于高阶统计和信息理论的判据和算法,在盲系统参数估计和盲波束形成等方面也取得了很多优秀的研究成果。凌燮亭教授利用反馈式神经网络根据hebbian的学习算法,实现了近场情况下一-把信号的盲分离,并对算法的渐进收敛性和实现信号分离状态的稳定性进行了讨论。吴小培、冯焕清等研究了在脑电信号处理中ica的应用。从2000年后,越来越多的学者开始关注该领域,开展了ica理论和应用研究,并创新性地在其各自的研究领域,加以融合盲源分离理论创造出很多新方法,因此国内盲源分离理论研究的发展得到了大力的推动。与此同时,国内相继成立了一些用来研究盲源分离理论相关的研究小组,也借助网络的平台在学术论坛上开辟了讨论这些问题的专版,数本较系统性地介绍盲源分离理论的书籍也相继出版。这些都大大方便了国内学者之间的交流与讨论,从而促进盲源分离研究的发展。随着数字信号处理理论和技术的发展以及相关学科的不断深入,大量有效的盲分离算法不断被提出,使盲分离问题逐渐成为当今信息处理领域中最热门的研究课题之一,在无线通信、图象处理、地震信号处理、阵列信号处理和生物医学信号处理等领域得到了广泛的应用。在本次选题通过选用合适的算法实现多个盲源信号的分离,并通过软件仿真实现并验证分离后的效果。
2. 研究的基本内容与方案
2.1基本内容
按照毕业设计的进度安排,此次研究(设计)分为以下步骤:
语音预处理:为选取多路互不相关的盲源语音信号,对输入的多路盲源语音信号进行时域线性叠加后,得到混合后的杂乱信号,即观测到的输出信号。
语音信号特征提取:根据语音信号处理的知识分析和提取语音信号的时域参数,对各路源信号提取相应的特征作为提取的关键因素。
算法原理:查阅相关资料,选择合适的盲源信号分离的自适应算法,学习其基本原理和数学模型,从而更好地从混合信号中分离出多路源信号。
软件实现:学习Matlab语言规则等相关知识,选用Matlab R2016a软件对输入的多路语音信号进行预处理,构建上述算法的数学模型,用Matlab进行实现和仿真,对各个算法分离后的源信号与混合前源信号进行对比。
2.2技术方案及措施
自适应算法 |
语音信号特征提取 |
语音信号预处理 |
软件仿真与实现 |
语音信号盲源分离方法研究与实现主要包含四个部分:
第一部分是语音信号预处理,为了更好地分析问题,我们对多路源信号做出以下约束:(1)源信号之间统计独立;(2)源信号之间进行的是线性混合;(3)源信号中的高斯信号不能超过一个,因为多个高斯信号叠加以后是不可盲分离的。我们选取多路互不相关的盲源语音信号,根据语音信号所具有的短时平稳性,对输入的多路盲源语音信号进行线性叠加后,得到混合后的杂乱信号,即观测到的输出信号。
第二部分是语音信号特征提取:虽然每种语音的声学特征不同且具有时变特性,但是在一个较短的时间范围内保持相对稳定,因而可以将其看作一个准稳态的过程,即语音信号具有短时平稳性,用数字语音信号处理的特征提取技术对混合前的各路语音信号进行特征提取,如:短时能量、短时平均幅度、短时过零率、短时自相关、短时平均幅度差。
第三部分是自适应算法:本次设计选择的是盲源信号分离的自适应算法,初步预计选用EASI(LMS)算法,其是一种借助于独立性进行等变化自适应分离的LMS方法, RLS是一种基于非线性主分量分析的盲信号分离方法,其根据梯度下降算法使用普通梯度还是自然梯度又分为普通梯度RLS和自然梯度RLS等算法,学习其算法原理和数学模型,实现从混合信号中分离出多路源信号。
第四部分是软件实现:用MatlabR2016a软件仿真,对输入的多路语音信号进行预处理和特征提取,构建上述算法的数学模型,对各个算法分离后的源信号与混合前源信号进行对比,验证并比较相应的分离效果。
3. 研究计划与安排
第1周—第3周搜集资料,撰写开题报告;
第4周—第5周学习matlab和数字语音处理相关知识,搜集资料,初步了解盲源信号分离的自适应算法原理和实现方式;
第6周—第12周完成主体程序,撰写论文初稿;
4. 参考文献(12篇以上)
[1] santoro r, jucker t, prisco i, et al. blindseparation of speech mixtures via time-frequency masking [j]. ieee transactionson signal processing, 2004, 52(7): 1830 - 1847.
[2] 张华, 冯大政, 庞继勇. 卷积混迭语音信号的联合块对角化盲分离方法[j]. 声学学报: 中文版, 2009, 34(2): 167-174.
[3] zhou y, xu b. blind source separation in frequencydomain [j]. signal processing, 2003, 83(9): 2037-2046.