基于CNN的评语情感分类算法研究文献综述
2020-04-15 16:50:37
随着社交网络以及电子商务的飞速发展,越来越多的用户习惯于在互联网上针对商品发表评论,造成各大电子商务网站上产品的短评语总量飞速上涨。面对海量内容相似、格式随意的评语,研究人员以及数据使用者仅凭人力在众多短评语中提取对自己有价值的信息比较困难,因此短文本评语的情感分类得到了广泛的关注。
评语情感分类,是自然语言处理相关领域中一个很重要的课题。是针对人们对事物的评论,情绪的情感倾向做出有效的挖掘和分析,然后对挖掘的信息归纳分类,进一步研究的一种技术,研究的是自动挖掘和分析文本中的观点、看法、情绪和喜恶等主观信息的方法。情感分类研究具有广泛的应用前景,受到了学术界和工业界的普遍关注。目前,情感分类研究取得了 很大的进步。传统的情感分类方法大多数是基于长文 本,大致可以分为有监督的机器学习方法和无监督的情感词典方法。
在进行评语情感分类时,由于现今互联网短文本格式随意,语言规范性不够,所以目前传统方法的情感分类效果并不理想。近年来, 深度学习在图像和语音处理领域已经取得显著进展, 但是在同属人类认知范畴的自然语言处理任务中, 研究还未取得重大突破。渐渐地,越来越多的研究人员青睐于使用深度学习技术来解决文本分类问题。主要分为2个部分:1)归纳总结传统情感分类技术,包括基于字典的方法、基于机器学习的方法、两者混合方法、基于弱标注信息的方法以及基于深度学习的方法;2)针对前人情感分类方法的不足,详细介绍所提出的面向情感分类问题的弱监督深度学习框架。
针对网上评论的情感分类算法问题进行研究,提出基于卷积神经网络的网上评论短文本情感分类改进算法,不仅能够挖掘更多的文本特征,同时相对于其他算法在准确率上也略有提高。算法的创新点在于采用了句子级别的情感分类,在考虑借助上下文语境的基础上消除了对情感词典的依赖。由于文中主要针对单标签标注的特征提取,在多标签分类方法中并未涉入研究,因此今后的工作将深入研究卷积神经网络的模型结构,以期在多标签分类模式下数据量较大的数据集也能得到效果较好的情感分类,从而使神经网络算法能够更加适用于情感分类的问题。
{title}2. 研究的基本内容与方案
{title}基本内容:广泛查阅、翻译课题相关的中英文资料,准备足够的有关感情分类的理论依据,了解CNN架构的基本应用,从而利用CNN架构对情感分类进行研究,学习前人研究过的算法,在现有算法的基础上加以完善和改进从而提高算法的准确率,从而实现对简短评语的情感分类。
主要完成的任务:
1、学习CNN架构
2、进行情感分类算法研究
3、实现对简短评语的情感分类