基于循环神经网络的商品评论文本情感分类研究文献综述
2020-04-14 14:52:32
众所周知,区分用户发帖或者评论文本的情感分类问题,对商家来说是很重要的,不仅可以及时了解到用户的情绪,而且可以帮助商家进行产品迭代。例如,“汽车之家” 网站上的用户评论,进过情感词分类后,可以得到很多有用的信息,如 “发动机有问题”,“总是烧机油” 等。 现今的评论系统虽然都会让用户选择好评中评差评,但有一些表面,有的用户选择好评但其实还是有一些小意见,还有那些选择中评差评的原因和情感倾向也是多种多样。本论文意在将淘宝评论情感分得更细致,让商家可以进一步清楚的了解用户对产品的态度以便更好的改进商品,也为之后的研究提供参考。
国内外的研究现状分析
情感词典作为一种重要的情感分类方法, 能够体现文本的非结构化特征。基于情感词典法需要将分词后的文档或句子中的每个词与情感词典中的词进行匹配, 并统计匹配成功的正负面情感词的数量,通过数量判断文本的情感倾向。基于词典和规则的方法具有省力、省时的优势。赵文婧[1]提出了对于不同领域的语料,给定领域相关种子词,基于模板从语料中互推迭代提取出产品属性词和对应情感词的提取算法。这是基于关联规则法制定的情感词提取方法。陈晓东[2]对新浪微博语料进行实验,自动获得领域情感词,构建了一个面向中文微博的情感词典。实现了一个面向中文微博的情感倾向分类系统,对中文微博的情感倾向分析进行了初步探索,还原。但是对于情感词的识别还不够准确深入。肖江,丁星,何荣杰[3]为了能更准确地识别情感词,构建了基准情感词典,并在基准情感词典的基础上构建了相关领域情感词典,采用相似度计算的方法确定领域情感词的情感倾向。Paltoglou等[4] 于2012年采用基于情感词典的情感分类方法,并利用否定词、大写字母、情感增强减弱、情感极性等多种语言学预测函数对微博数据进行情感分类。邓佩,谭长庚[5]针对传统的微博情感分析方法忽略了图片影响因素、特殊符号信息以及上下文信息导致情感分析方法的准确率不高的问题,提出了一种基于转移变量的图文融合微博情感分析方法。首先构建基于转移变量的无监督情感分析模型来分析文本情感分布,然后引入图片作为情感影响因素来分析情感分布,最后计算微博的整体情感倾向。
基于机器学习的情感文本分类法需要标注文本语料,并利用机器学习模型训练这些语料,得到文本分类模型。Liu等[6]于2013 年将Co-training协同训练算法与SVM相结合进行推文的情感分析。Co-training协同训练算法可以实现语料的半自主标注,再利用SVM算法实现推文的情感分类。王鹤琴,王杨[7]提出了一种基于情感倾向和SVM的极短文本分类模型。结果表明在分类准确率方面,该方法能够有效提高匹配效率,同时在泛化误差与精确度指标上匹配结果更加均衡。Dong等[8]于2014年提出了一种基于自适应递归神经网络的情感分类方法,该方法通过上下文和句法规则对词的情感标记进行自适应传播, 实现了目标依赖的情感分类。在Twkter样本集的实验中,该方法的准确率比SVM髙,可达66.3% 。
LSTM只是一基本模型,如Margarit等[9]设计了一个长期短期记忆(LSTM)集成模型来创建一个无监督步态分类工具。Hu等[10]制作了一个汉语问题分类的混合双注意机制和长期短期记忆模型,也可以和其它技术结合变得更好。於雯,周武能[11]利用Word2vec和分词技术将评论短文本文本处理为计算机可理解的词向量传入LSTM网络并加入Dropout算法以防止过拟合得出最终的分类模型。马远浩等[12]则利用基于Word2Vec的词向量训练方法以克服传统文本向量表示方法中高维度和高稀疏性的问题,进一步通过TF-IDF模型对词向量进行加权赋值以确定词向量的重要程度,最后,以加权运算后的词向量作为初始输入样本来对LSTM与CNN混合模型进行分类训练,进而自动提取出文本信息中的隐含特征,实现对微博评论数据的准确分类。
王文凯等[13]在卷积神经网络的输出端融人树型的长短期记忆神经网络(LSTM),通过添加句子结构特征加强深层语义学习,在两种改进的基础上构造出一种微博情感分析模型(Att-CTL) 。滕飞[14]为了增强上下文之间的相关性,增加了句子维度,构造了三维长短期记忆模型,降低短期记忆对模型准确率的影响,增加特征提取的准确率,降低初始权重分配对准确率的影响。 任勉,甘刚[15]为解决文本情感分类研究中传统循环神经网络模型存在梯度消失和爆炸问题,提出一种基于双向长短时记忆循环神经网络模型(Bi-LSTM)。实验结果表明,Bi-LSTM模型比传统循环神经网络LSTM模型分类效果更好。这些都说明LSTM有很大的改进空间。
{title}2. 研究的基本内容与方案
{title}基本内容
从文本情感分类传统模型的思路出发,结合深度学习与自然语言处理克服传统模型对于精度和背景知识问题的局限性。基于LSTM(Long-Short Term Memory,长短期记忆人工神经网络)搭建一个文本情感分类的深度学习模型对淘宝的商品评论文本进行处理。近年来,深度学习算法被应用到了自然语言处理领域,获得了比传统模型更优秀的成果。如Bengio等学者基于深度学习的思想构建了神经概率语言模型,并进一步利用各种深层神经网络在大规模英文语料上进行语言模型的训练,得到了较好的语义表征,完成了句法分析和情感分类等常见的自然语言处理任务。
1. 概论
2. 文本情感分类