微博用户情感分析方法研究与实现文献综述
2020-04-14 20:00:58
随着Web2.0时代的兴起, 用户作为信息浏览者的同时,参与互联网信息的制作和管理。微博就是基于Web2.0模式下的一种新兴媒体。它具备碎片化、多媒体化的文本内容、基于用户关系的传播以及即时的发布的特性,同时用户可以通过PC、手机等多种终端接入,吸引了众多用户。近几年来,微博在国内得到了广泛的推广,在2017年,微博第一季度月活跃用户增长了2700万至3.4亿,超过同季度Twitter的水平。用户数量飞速增长的同时,其应用领域也不断的扩张。对于个体,用户的按照个人的偏好,关注不同的用户同时查看自己需要的信息,对于不同的事件,也可以通过微博真实地表达自己的观点。在企业方面,企业能通过微博平台发布自身的最新状态更加及时地传递消息给老顾客并吸引新顾客。在政府层面,政府能通过微博平台实现机构的透明化、公开化,使群众更加全面地了解其运作和流程。由于微博中具备海量的信息,有效地对微博信息进行情感分析和挖掘,并整合分析结果。对于用户个体,可以迅速了解自身的需求,针对具体问题更精确地解决。在企业层面,企业能了解用户的需求,尽快地定点改进。在政府机关方面,能够及时知晓民众意见,提前预测舆论方向,有助于进行舆情监控和处理相应社会问题。
在情感分析方面,现主要使用的技术分两大类:一类是采用情感词典与规则相结合的方法,根据文本中包含的正向情感词和负向情感词的个数来进行情感分类;另一类是采用机器学习的方法,选择文本中的一些特征,标注训练集合测试集,使用朴素贝叶斯(Naiuml;ve Bayes)、最大熵(MaxEntropy)、支持向量机(Support Vector Machine)等分类器来进行情感分类。总体来看,使用情感词典与规则相结合的方式,其优点在于应用在词语特征级,分析精准,难点在于构建一个足够满足众多领域、足够大的情感词典和中文的特征提取。通常,在构建中文情感词典,采取的方式是对已有的情感词典进行总结和整理,另一部分,通过人工标注和采用扩展的情感倾向带你互信息算法(Semantic Orientation Pointwise Mutual Information,SO-PMI)从微博中自动获取的方式进行补充。另一方面,使用机器学习实现情感分类关键在于特征信息的提取,所以它特别依赖于正确的训练语库,同时训练周期相对较长。
{title}2. 研究的基本内容与方案
{title}
本毕业设计研究的基本内容是构建基本情感词典,然后针对基本情感词典无法适应于微博情分析的问题,进行情感词典的扩充。最后结合扩充情感词典及规则实现情感分析。本次毕业设计的具体目标是,使用者通过给出微博的情况,通过运行系统,最终得到情感分析结果。
在具体毕业设计进行过程中,我打算按照以下流程进行相关知识的学习和毕业设计的实施。
-
Java编程能力的强化:由于本次使用的主要编程语言是java,为了更好地完善系统,需要加强Java的练习。
-
情感词典的搭建:要想正确分析出微博的情感倾向,足够大和覆盖领域足够广泛的情感词典是关键。构建合理的情感词典,通常的方式是通过人工标注和使用SO-PMI算法相结合的方式。
-
情感分类的模型建立:由于中文语句表达情感具有多种表现形式,比如句中存在情感词典中的情感词、不存在情感词或者出现否定词等情况,基于中文的复杂情况,需要根据相应情况建立相应的情感倾向加权算法。
剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付