基于用户评论的情感识别系统研究与实现文献综述
2020-04-14 21:36:12
随着中国互联网经济的发展,在“互联网+”的模式下的影响下,电子商务发展迅猛。根据中国电子商务研究中心统计数据,我国电子商务全局保持了快速发展的势头,已经迈入规模发展阶段,成为我国经济发展的主力军。淘宝、京东、亚马逊、当当等电商网站的发展使得网购成为潮流,多样化的需求也推动各网站的发展,竞争也愈发激烈起来。在电商平台这样激烈竞争的的大背景下,除了提高产品质量、压低产品价格和使用一些营销手段外,了解更多消费者的心声,发现产品的不足更是相当重要的一种提高竞争力的方法。其中最为有效的就是方式就是利用消费者的评论数据,进行潜在信息的一种数据挖掘分析工作,这对于电商平台以及产品都会有很大的意义。对于用户来说,在网上确认订单前,通常会去查看该商品的历史评论以了解该商品的评价信息,从而做出是否购买的决策。
目前各大主流网站电商平台用户评论系统都是采用“评分等级 预定义标签 评论文本”的形式对用户评论进行采集和分析。但现有的电商评论系统存在步骤繁多和操作繁琐,而且容易导致错误判断的问题。这样的错误评价不仅会影响到 商家对于产品精准的数据统计、广告推送和商家商品排名,也会使后来购买此商品的用户判断失误造成决策错误。
本论文的目标是,基于文本挖掘技术和情感分析技术的相关理论知识,克服现有电商网站评论分析系统准确度较低的缺陷,利用京东网站部分商品对产品的评论数据进行去重和清洗,并对数据进行分词,分析其依存语法关系,建立情感规则表,并提取情感词,再通过构建面向产品评论文本的情感词库以及辅助词库,对评论的文本情感值进行计算,进而较为准确的识别出用户评论的情感倾向。
文本情感分析是利用自然语言处理 (简称NLP) 、数据挖掘算法等对文本语言进行情感判断, 从而把握文本意见观点、态度的计算研究。近年来网络在线评论数量与日剧增, 依托人工进行的评论整理无法满足现实需求, 因此文本情感分析吸引了众多国内外学者对其进行研究。
传统的文本情感分析方法利用情感字典, 模拟人的判断思维, 进行情感判断。例如在国外, V Hatzivassiloglou等人1997年尝试建立词汇级情感字典, 并在此基础上进行文本情感分析, 使判断结果准确率达到82%。Wiebe等人 (2001) 区分主观性和客观性文本, 针对主观性文本开展情感分析。Pang等人 (2002) 引入数据挖掘算法中朴素贝叶斯 (Naive Bayes) 、最大熵模型 (The Maximum Entropy Principle) 和支持向量机 (Support Vector Machine, SVM) 模型对电影评论进行文本情感分析。
在国内, 樊娜等人 (2009) 开始评估文本中语义概念的概括和归纳能力, 采用条件随机场模型, 选取情感倾向特征和转移词特征训练模型, 从文本主题句集合中提取情感主题句。赵妍妍等人 (2010) 对文本情感分析进行综述研究, 详述了文本情感分析的国内外发展情况。张成功等 (2012) 将极性词与修饰词组合成极性短语作为极性计算的基本单元, 提出了一种基于极性词典的文本情感分析方法。唐晓波等2013年基于支持向量机改进了文本情感分析中效率较低、文本表达维度高等问题。黄磊等在2017年引入神经网络开展文本情感分析的研究, 其中以词向量作为基本输入单元, 保留原文中语义组合, 从而克服了传统文本分类方法的缺点。
{title}2. 研究的基本内容与方案
{title}
在电子商务中文本挖掘和情感分析技术起到十分的重要作用。通过分析电商平台的用户评论数据,挖掘用户情感信息,不仅为用户选购相应商品时提供有价值参考,还可以为企业提供更精确的数据统计、广告推送和商家商品排名。本课题主要从预处理的分析电商历史评论数据、历史语料处理和语法依存分析、属性词库与情感词典的建立和多等级分类系统的实现等方面进行,通过对用户评论文本进行分析计算,较为准确地识别出用户评论的情感倾向。本课题主要研究基于电商评价的文本情感分析,以自然语言处理技术为基础,需要完成的主要内容为:(1)利用爬虫工具获取某个产品的评论数据并去重和清洗;(2)详细分析历史评论数据,对数据进行分词,并分析其各种依存语法关系,识别出其中可能包含用户语义倾向的依存关系,建立一个适用于抽取情感词的依存规则表,然后基于规则抽取电商评论文本中的情感词;(3)基于抽取的情感词集合,利用基准词库来构建面向电商评论文本的情感词库;(4)利用建立的基准词库来构建适用于电商领域的情感词库的功能、构建辅助词库,实现情感计算算法的功能,从而完成整个系统的设计与实现。