基于情感分析的在线评论挖掘研究毕业论文
2021-04-21 21:53:54
摘 要
随着国内电子商务的迅猛发展,网络购物已经成为人们购物的主要方式之一。随之而来的海量的电商数据已成为企业竞争情报分析重要的数据。然而基于电商数据的BI或CRM系统并不具备任何技术壁垒,几乎已成为品牌方针对电商运营的必备工作之一,相比竞品无法进一步做到精细化运营。此时电商平台的另一块数据宝藏——用户评论借着人工智能的东风正逐渐成为各家电商未来的至关重要的竞争力。
本文以在线用户评论为研究对象,结合情感分析发掘用户的真正心声。从用户角度,如果在线评论挖掘是服务于消费者且真实有效的话,情感分析可以帮助消费者进行消费决策。从商家的角度,在线评论挖掘可以分析出商家或商品在不同维度上的口碑情况,可帮助商家有针对性地提高自身的产品或服务。它也可以告诉你在哪个方面发生了舆情状况,对此做出预警,有助于公关决策。不同商家的产品对比也可以帮助企业进行竞品分析,从消费者的角度侧面分析产品的优势和劣势。
关键词:用户评论,情感分析,评论挖掘
Abstract
With the rapid development of domestic e-commerce, online shopping has become one of the main ways for people to shop. The ensuing mass of e-commerce data has become an important data for enterprise competitive intelligence analysis. However, the BI or CRM system based on e-commerce data does not have any technical barriers, and it has become almost one of the necessary tasks of the brand side for e-commerce operations. Compared to competing products, it is impossible to further refine the operation. At this time another e-commerce platform data treasure - user comments by artificial intelligence Dongfeng is gradually becoming the vital competitiveness of the home appliance business in the future.
This article uses online user reviews as the research object, and combines the emotional analysis to explore the true voice of users. From the user's perspective, sentiment analysis can help consumers make consumer decisions if online review mining is serving consumers and is real and effective. From a business perspective, online comment mining can analyze the word-of-mouth situation of merchants or products in different dimensions, and can help merchants to improve their products or services in a targeted manner. It can also tell you in which areas the public health situation has occurred and give an early warning of this, which helps public relations decisions. The comparison of products of different merchants can also help the company to conduct competitive product analysis and analyze the advantages and disadvantages of the product from the perspective of consumers.
Keywords: user reviews, sentiment analysis, comment mining, co-word analysis
目 录
第1章 绪论 4
1.1研究背景 4
1.2国内外研究现状综述 4
1.3研究意义 5
1.4本文主要研究内容 5
第2章 系统分析 6
2.1 软件体系架构 6
2.2 服务器服务框架 6
2.3 模板框架 6
2.4 系统分析 7
2.4.1 系统功能目标分析 7
2.4.2系统业务流程分析 7
第3章 系统设计 9
3.1总体设计 9
3.2数据库设计 10
3.2.1 数据库设计的重要性及设计原则 10
3.2.2 数据库逻辑设计 11
3.3模块详细设计 18
3.3.1 IP代理池模块 18
3.3.2 评论爬虫模块 19
3.3.2 评论分析模块 20
第4章 系统实施 21
4.1系统关键技术和代码举例 21
4.1.1 代理池 21
4.1.2评论爬虫 23
4.1.3评论分析 24
4.2系统测试 35
4.2.1系统测试的目的 35
4.2.2系统测试的主要内容 35
4.3 核心功能展示 35
4.3.1代理池 35
4.3.2评论爬虫 36
4.3.3评论分析 37
第5章 结束语 43
5.1本文工作 43
5.2研究展望 43
绪论
1.1研究背景
近年来,在“大数据”时代的背景下,随着电子商务行业的蓬勃发展,网络购物平台、手机APP 应用市场平台等不仅为用户提供了大量商品信息,同时还允许用户参与商品评论。它不仅为商家提供了一个信息的展示平台以发布新产品的规格数据,也为消费者提供了一个产品使用体验交流以及质量评价的平台。在消费者对所购商品有评价的前提下,很多网络购物客户在购买某产品前,通常会先查看该产品的相关信息,尤其是其他已购用户的使用体验, “货比三家”,从而使自己的消费和选择更趋理性化。分析这些评论信息,蕴含着巨大的商业价值和社会价值,具有很大的现实意义。
然而,这些主观性评论文本每天以指数级的速度增长,仅靠人工方式难以进行收集、处理和分析。因此繁复的事交由计算机来自动地分析这些主观性文本表达的情感,这也成为目前数据挖掘研究的一个热门方向即文本情感分析及数据挖掘。
1.2国内外研究现状综述
文本情感分析是一个多学科交叉的研究领域,属于计算机语言学的范畴。它在计算机科学以及管理学、政治学、经济学、社会学方向都有广泛的应用,而商业的蓬勃发展也进一步拓展了它的应用范围。在20世纪90年代,就已经有学者开始了情感分析方面的研究,进入21世纪以后,作为一个新的研究方向,这个领域逐渐变得活跃,吸引了越来越多的国内外学者投入其中。
情感分析作为自然语言处理的一个分支,涉及到自然语言处理的各个方面。国内外有很多研究机构根据现实生活中的具体需求研发出各个领域的情感分析系统,帮助用户对海量信息进行分析和决策。由于在自然语言处理中的许多难题还没有解决,因此给情感分析研究带来了不少困难。但是情感分析并没有因此受限,情感分析不需要逐条研究语句的语法,只需要获取对整体或部分的评论。对于之前的相关研究,主要集中情感分类或主观表述,在现实应用中还是有很多的不足,尤其随着近两年网络的飞速发展,需要更深入,更细致的研究。
但由于中文和英文的差异性,许多国外的研究技术和情感资源无法直接用于中文语言的处理。目前中文情感词词典资源不足,而且效果一般;每个领域的情感词不同,判断标准也可能不同,难以统筹;对需要联想的句子比较难区分;反语的表述,有些反讽的表达难以判断;中文新词的情感属性识别,在互联网的文本中比较常见。解决这些问题需要结合多种手段来提高情感分析的准确率,包括规则(句法依存 情感词典)、机器学习和深度学习等方法,这也是业界通常使用的处理办法。
1.3研究意义
文本情感分析是一个综合性的Web 数据挖掘领域,与之相关的学科有计算机科学、教育学、管理学、语言学、经济学等。此技术可以在现实生活中的很多方面得到应用,例如,商务智能、民意调查、舆论分析、企业管理等。作为一种综合性的Web 数据挖掘领域,互联网评论文本情感分析所涉及的研究内容非常广泛,比如被评价商品的属性识别、消费者评论正负向情绪识别、发掘消费者评论和商品销售情况之间的关系等等。利用互联网评论文本情感分析的结果,潜在的购买者可以了解其他购买者对该产品的态度以及使用体验,为自己是否购买提供决策依据;制造商和经销商可以了解到消费者关于产品和服务的反馈佑息,参照消费者对自己以及竞争对手的评价意见,对产品及服务进行改进,从而获得竞争优势。
本文在线评论挖掘的意义可以从两个角度去分析:
①从用户角度。如果在线评论挖掘是服务于消费者且真实有效的话,消费者可以根据快速地获取有关商店或商品的口碑概述:情感分析可以告诉你消费者们的情感分布;基于此方面的意见挖掘可以告诉你在不同维度上的口碑情况。它还可以展示不同的商店或商品在口碑维度的横向对比,帮助消费者进行消费决策。
②从商家的角度。在线评论挖掘可以分析出商家或商品在不同维度上的口碑情况,可帮助商家有针对性地提高自身的产品或服务。它也可以告诉你在哪个方面发生了舆情状况,对其做出预警,有助于公关决策。不同商家的产品对比也可以帮助企业进行竞品分析,从消费者的角度侧面分析产品的优势和劣势。
1.4本文主要研究内容
本文主要从情感词典扩充、模型训练、情感倾向值计算等方面展开研究,通过逐条评论信息的情感分析获取整个商品的实际好评率。本文的主要工作内容包括下面内容:
(1)数据获取前准备,实现了一套IP代理池系统,解决了高速爬取过程中IP被屏蔽无法爬取的问题。
(2)数据获取与数据处理,主要是通过scrapy爬虫框架高速获取京东全站数据,然后对这2000万条数据进行预处理,预处理包括数据去重、数据清洗、中文分词、停用词过滤等过程。
(3)为解决京东以评价星级计算好评率带来的“虚假”好评率(不准确的)的问题,本文对所有商品的所有评论逐条进行情感分析(识别准确率约86%),得出商品的实际好评率,为消费者提供消费前数据参考。
系统分析
2.1 软件体系架构
基于情感分析的海量在线评论挖掘系统是一个部署于远程服务器,由用户通过Ajax异步请求获取分析结果的平台,数据的抓取、存储与分析都由服务器后台完成;服务器分析完成后返回JSON数据,然后由浏览器解析JSON动态加载展示。考虑到B/S的分布性强、维护方便、开发简单且共享性强;最重要的是B/S架构能够适应于多用户同时使用,因此本系统采用B/S架构更为合适。
2.2 服务器服务框架
Flask属于Python 的web WSGI(Web服务器网关接口,是为Python语言编写一种简单而通用的接口,用于Web服务器和Web应用或框架之间)框架。虽然webpy使用起来很简单、很直接。但webpy亦有许多不足,不能满足本系统的需求,比如: ORM支持的不大好,自身没有ORM,对接外部ORM框架没有Flask之类的好;比较麻烦的url映射切分,url映射就是把url映射到不同的处理类上。Flask提供工具,库和技术来允许来构建一个 web 应用程序,Flask 属于微框架这一类别,微架构通常是很小的不依赖于外部库的框架。这既有优点也有缺点,优点是框架很轻量,更新时依赖少,并且专注安全方面的 bug。基于情感分析的海量在线评论挖掘研究系统利用Flask快速搭建用于代理IP服务程序对外提供代理IP获取接口,以便外部其他程序获取代理IP;Flask框架用于情感分析及数据分析模块前后端数据交互,由Flask后台渲染的页面获取需分析产品参数,后台分析结果经渲染后交由前端加载展示。
2.3 模板框架
Flask 使用 Jinja 2 作为模板引擎。Jinja2模板语言仿照 Django 模板设计,它是一个设计简便化的,实用化python模板语言。它能够实现不同页面相同部分的高度复用,节省资源提升开发效率。
网站有一些通用的部分,比如网站title、左侧菜单、右侧内容、底部等。合理的规划模板往往会减少工作量,同时也使得罗乱、难以阅读的静态页面布局变得优雅。和其他模板引擎一样,Jinja2也支持模板继承,本系统中共有4个模板,分别为:base.html,基础模板里包含了这个网站里的基本元素的基本骨架,但是里面有一些空的或者是不完善的块需要用子模板来填充;index.html,首页;data.html,展示分类所有产品及产品的具体分析结果;404.html,错误页,未查到商品或分类信息;后三者皆继承自base.html模板。利用Jinja2模板引擎可快速进行前端开发,节约时间及系统开支。