融合迁移学习和GAN的文本分类算法研究与实现文献综述
2020-04-14 20:01:42
文本分类是一种重要的数据分析方法,它能够提取、刻画出重要数据类的模型,使得计算机可以从过去的数据中获取知识,解决问题。有关文本分类的研究经过多年发展,算法的分类精度和时间效率都得到了令人满意的结果,但是传统的基于统计的机器学习算法仍存在不能应用之前己经存在的分类体系给新的数据集分类,并且要求训练数据与测试数据必须满足同分布的限制。而迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法,刚好能够放宽这两项限制,实现对不同分布的数据的知识复用,因此学者们开始关注将迁移学习模型引入到文本分类中。
根据迁移方式的不同,常把迁移学习文本分类分为四类:基于实例权重的迁移学习、基于特征的迁移学习、基于参数的迁移学习与基于关系知识的迁移学习,其中前两种迁移方式被研究地较为普遍。其中基于实例权重的方法主要适用于两个领域差异较小的场景,但当两个领域之间的数据在领域间分布差异比较大时,该方法就很难只是通过简单调整样本权重的方式达到学习目的,具有一定拘束性。本设计拟研究基于特征表示的迁移学习方法,先把数据映射到特征空间,得到一个特征向量,然后在这个新的特征空间下加入一些约束减少两个域特征之间的分布差异,最终达到迁移学习的目的,这样即使源域和目标域边缘概率分布差异比较大,但是两个领域之间只要存在一定的关联,该种方法就会通过在特征空间上约束使两个领域分布对齐,达到知识转化复用的目的。
学者们还常根据迁移学习中源领域和目标领域在特征空间、类别空间的异同分为同构迁移学习和异构迁移学习,清华大学的龙明胜根据边缘分布、条件分布等因素进行了更为细致的划分,如图一。本设计主要研究同构迁移学习中的领域适配问题。
图一 迁移学习分类
随着生成对抗网络被广泛关注,对抗学习的思想也开始被大家所研究。通过构建两个相互对抗的子网络:生成器和判别器,模拟博弈论中两人对弈的场景,使两个子网络之间交替训练,相互对抗,使各自的性能逐渐提高。对抗思想为解决迁移学习中领域适应问题提供了新的思路,这些方法主要关注于对齐源域和目标域的特征分布。如ADDA方法提出一种对抗域适配的泛化框架,先在源域上学习出一个特征抽取器和一个分类器,再在目标域上利用GAN对抗的思想把目标域的数据映射到源域上,进而能够学出一个新的特征抽取器,达到迁移学习的目的。
综上,本研究拟将对抗思想引入基于特征的迁移学习,解决领域适应问题。把生成对抗网络中的生成器生成样本过程转化为对目标域特征提取的过程,不断学习域数据的特征,使得判别器无法对源域和目标域进行分辨,利用学习到的目标域特征和源域特征进行文本分类问题,并进行实验评估。
{title}2. 研究的基本内容与方案
{title}本次毕业设计的主要内容是设计一个融合迁移学习和生成对抗网络的文本分类算法并将其实现,观察其效率。拟将对抗思想引入基于特征的迁移学习,解决领域适应问题,在Ganin Y 等人提出的DANN(域对抗神经网络)的模型的基础上,以学习目标域数据特征,建立文本分类算法并提升效率为设计目标。
在设计的具体进行过程中,我打算按照以下流程进行相关知识的学习和设计的实施:
-
Python编程能力的强化:Python语言是实现数据处理、学习算法的重要语言,因此对Python的编程能力的强化是很有必要的,尤其要学习类似方向的实例代码,学习算法的编程模式。
-
算法的设计:先大量地查阅学习论文,了解相关研究进展,再尝试模拟他人的算法实施过程,尤其是觉得与本设计目标相似的GAN算法,得到更深的理解,再构建设计算法大体思路。
-
算法的实现:实现文本分类的一般算法流程是数据预处理、学习算法、分类模型,我们的重心会放在对抗思想的学习算法和分类模型之上,之后进行测试评估模型,如果效果不理想则应该从模型重新设计规划。
[1]吴冬茵, 桂林, 陈钊, et al. 基于深度表示学习和高斯过程迁移学习的情感分析方法[J]. 中文信息学报, 2017, 31(1).
[2]韦余永. 基于实例与特征的迁移学习文本分类方法研究[D]. 2015.
[3]生成式对抗网络GAN的研究进展与展望[J]. 自动化学报, 2017(3).
[4]杨柳,景丽萍,于剑. 一种异构直推式迁移学习算法[J].软件学报,2015,第26卷(11): 2762-2780
[5]洪佳明, 陈炳超, 印鉴. 一种结合半监督Boosting方法的迁移学习算法[J]. 小型微型计算机系统, 2011, 32(11):2169-2173.
[6]张智. 一种基于深度神经网络的迁移学习方法[D].哈尔滨工业大学,2018
[7]臧文华. 基于生成对抗网络的迁移学习算法研究[D]. 2018.
[8]庄福振, 中国科学院智能信息处理重点实验室, 庄福振, et al. 迁移学习研究进展[J]. 软件学报, 2015, 26(1):26-39.
[9]杜芳华. 基于半监督学习的文本分类算法研究[D]. 北京工业大学.
[10]孟佳娜. 迁移学习在文本分类中的应用研究[D].大连理工大学,2011
[11]孙伟. 基于迁移学习的文本分类算法研究[D].中国矿业大学(北京),2013
[12]魏晓聪, 林鸿飞. 面向迁移学习的文本特征对齐算法[J]. 计算机工程, 2017(2).
[13]Ganin Y , Ustinova E , Ajakan H , et al. Domain-Adversarial Training of Neural Networks[J]. Journal of Machine Learning Research, 2015, 17(1):2096-2030.
[14]Goodfellow I J , Pouget-Abadie J , Mirza M , et al. Generative Adversarial Nets[C]// International Conference on Neural Information Processing Systems. MIT Press, 2014.
[15]Tzeng E, Hoffman J, Saenko K, et al. Adversarial Discriminative Domain Adaptation[J]. 2017.
1.目的及意义
文本分类是一种重要的数据分析方法,它能够提取、刻画出重要数据类的模型,使得计算机可以从过去的数据中获取知识,解决问题。有关文本分类的研究经过多年发展,算法的分类精度和时间效率都得到了令人满意的结果,但是传统的基于统计的机器学习算法仍存在不能应用之前己经存在的分类体系给新的数据集分类,并且要求训练数据与测试数据必须满足同分布的限制。而迁移学习是运用已存有的知识对不同但相关领域问题进行求解的一种新的机器学习方法,刚好能够放宽这两项限制,实现对不同分布的数据的知识复用,因此学者们开始关注将迁移学习模型引入到文本分类中。
根据迁移方式的不同,常把迁移学习文本分类分为四类:基于实例权重的迁移学习、基于特征的迁移学习、基于参数的迁移学习与基于关系知识的迁移学习,其中前两种迁移方式被研究地较为普遍。其中基于实例权重的方法主要适用于两个领域差异较小的场景,但当两个领域之间的数据在领域间分布差异比较大时,该方法就很难只是通过简单调整样本权重的方式达到学习目的,具有一定拘束性。本设计拟研究基于特征表示的迁移学习方法,先把数据映射到特征空间,得到一个特征向量,然后在这个新的特征空间下加入一些约束减少两个域特征之间的分布差异,最终达到迁移学习的目的,这样即使源域和目标域边缘概率分布差异比较大,但是两个领域之间只要存在一定的关联,该种方法就会通过在特征空间上约束使两个领域分布对齐,达到知识转化复用的目的。
学者们还常根据迁移学习中源领域和目标领域在特征空间、类别空间的异同分为同构迁移学习和异构迁移学习,清华大学的龙明胜根据边缘分布、条件分布等因素进行了更为细致的划分,如图一。本设计主要研究同构迁移学习中的领域适配问题。