基于深度学习的微博文本情感分类研究与实现毕业论文
2021-11-20 22:22:07
论文总字数:14618字
摘 要
微博是人们网络生活的聚集地,微博中的情感评论能反映人们对事物的观点与看法,对这些微博和文本进行分析可以获取许多有价值的信息。现有的情感分析方法,主要有基于规则的情感分析方法、基于深度学习的情感分析方法。随着语言的多样化,传统的情感分类方法难以适应语言规则的变化,深度学习技术在自然语言领域有了更好的实践效果。本文将基于深度学习的情感分类算法与基于规则的情感分类算法进行比较,实验结果表明,基于深度学习在处理微博文本情感分类任务具有更高的精度。
关键词:情感分类;微博文本;词向量;LSTM神经网络
ABSTRACT
Weibo is a gathering place for people's online life. Emotional comments in Weibo can reflect people's views and opinions on things. Analyzing these Weibo and text can obtain many valuable information. The existing sentiment analysis methods mainly include rule-based sentiment analysis methods and deep learning-based sentiment analysis methods. With the diversification of languages, traditional emotion classification methods are difficult to adapt to changes in language rules, and deep learning technology has better practical effects in the field of natural language. This paper compares the sentiment classification algorithm based on deep learning with the rule-based sentiment classification algorithm. The experimental results show that the deep learning based on the microblog text sentiment classification task has higher accuracy.
KEY WORDS: sentiment analysis; weibo text; word vetor; LSTM neural network
目录
第一章 绪论 1
1.1 目的与意义 1
1.2 国内外研究现状 1
1.3 技术实现路线 2
1.3.1 基于规则的文本情感分类方法 2
1.3.2 基于机器学习的文本情感分类方法 3
1.3.3 基于深度神经网络的文本情感分析方法 3
1.4 本文研究内容介绍 4
第二章 微博文本数据集 5
2.1 微博文本数据集的组成与分类 5
2.2 微博文本数据集的预处理 5
2.2.1 中文分词 5
2.2.2 minibatch 6
第三章 基于LSTM的微博文本情感分类处理流程 7
3.1 数据集预处理 7
3.2 构建LSTM神经网络 7
3.3 加载预训练词向量 8
3.4 训练并评价模型 9
第四章 基于深度学习的情感分类评估 10
4.1不同数据集规模下的对比实验 10
4.2 与基于规则的情感分类对比实验 10
第五章 总结与展望 13
绪论
目的与意义
随着互联网技术的迅速发展和普及,对网络内容管理、监控和有害(或垃圾)信息过滤的需求越来越大,网络信息的主观倾向性分类受到越来越多的关注。这种分类与传统的文本分类不同,传统的文本分类所关注的是文本的客观内容(objective),而倾向性分类所研究的对象是文本的“主观因素”,即作者所表达出来的主观倾向性,分类的结果是对于一个特定的文本要得到它是否支持某种观点的信息。这种独特的文本分类任务又称为情感分类。
情感分类是指根据文本所表达的含义和情感信息将文本划分成褒扬的或贬义的两种或几种类型,是对文本作者倾向性和观点、态度的划分,因此有时也称倾向性分析(opinion analysis)。情感分类作为一种特殊的分类问题,既有一般模式分类的共性问题,也有其特殊性,如情感信息表达的隐蔽性、多义性和极性不明显等。针对这些问题人们做了大量研究,提出了很多分类方法。
近年来,随着微博的发展,在突发事件等重大事件的传播过程中,微博日益成为重要的平台和推手,如何有效应对微博舆情,掌握话语权,成为当下亟需面对和解决的重要课题。因此,把握微博舆情,深入事件舆论走向,以及民众对热点事件的看法成了重中之重。本文研究的是如何结合深度学习去实现微博文本情感分类,我们可以通过情感分类来分析微博博文不同情感的比重、以及同一话题的情感走向来了解人们对时间的看法,有利于帮助有关机构把握和引导舆论趋势,避免恶性事件或是虚假事件的发生。
国内外研究现状
20世纪90年代末,国外的文本情感分析已经开始。早期,Riloff和Shepherd [1]在文本数据的基础上进行了构建语义词典的相关研究。McKeown [2]发现连词对大规模的文本数据集中形容词的语义表达的制约作用,进而对英文的形容词与连词做情感倾向研究。自此之后,越来越多的研究开始考虑到特征词与情感词的关联关系。Turney [3]等使用点互信息的方法扩展了正负面情感词典,在分析文本情感时使用了极性语义算法,处理通用的语料数据时达到了74%。在近些年的研究中,Miao等以之前的研究为基础,实现了一个基于特征级别的分析,阐述了一个对产品评论的四元组抽取概念。Narayanan [4]等结合各种特征及其相关联信息,提出了一个基于分句、结果句和整句的分类方案,获得了很好的效果。Pang [5]等用机器学习的方法以积极情感和消极情感为文度,对电影评论进行了情感分类。他分别采用了支持向量机、最大熵、朴素贝叶斯算法进行分类实验,通过对分类结果进行的分析,发现支持向量机的分类精确度达到了80%,在这三种分类算法中展现出了最优性能。由此可见,机器学习在外文的情感分析方面有着较为理想的应用前景。
国内的徐琳宏、林鸿飞 [6]通过手工和自动生成的方式构建出情感词典本体库,提取了影响句子情感的9个语义特征,对情感分析研究做了初步的探测。李钝、曹付元 [7]等基于语言学的角度,根据中心词对短语的情感倾向的影响效果,提出了以中心词为基础的情感倾向计算方法。近年来,闻彬 [8]等提出基于文本语义的文本情感分类,分析了文本情感倾向是否受到程度副词等出现规律的影响,进而提高了有效判定情感倾向算法的性能。随着研究的深入,学者在对情感分析算法进行改进的同时,也将其应用到不同的行业中进行了实践,如赵妍妍等 [9]、王素格 [10]等,都取得了不错的成果。他们分别通过自动获取句法路径来描述评价对象和评价词语之间的关系的方法和基于情感词粗糙隶属度的文本分类方法将情感倾向分析应用到了电商评价和汽车评价预测上。
技术实现路线
实现情感分析系统的方法和算法有很多种,可分为:
- 基于规则的文本情感分析方法
- 基于机器学习的文本情感分析方法
- 基于深度神经网络的文本情感分析方法
基于规则的文本情感分类方法
基于规则的文本情感分析方法通常需要构建情感词典或情感搭配模板,再通过对比文本中包含的情感词或者固定的搭配来计算文本的情感倾向。
在国外,早在2002年,Turney就通过互点信息(pointwiseMutualImformation,PMI)方法将基础的褒义和贬义词词汇表进行拓展,在此基础上挖掘文本中包含的表达了情感倾向的词,并用极性语义算法(ISA)对文本的情感分析进行分析。Kim在对文本进行情感分析的过程中,使用已有的情感词典对文本中体现了情感的词语进行分析,并对这些情感词的强度进行评估打分,最后通过把情感词的分数相加得出文本整体的情感倾向,并取得了不错的效果。
在国内的研究中,Tsou和Yuen首先利用情感词典分析文本中的情感词的情感倾向,然后进一步分析情感词在该文本中的密度、广度和情感词本身的强度对情感极性的影响,接着通过综合这些指标计算该文本的情感极性以及情感倾向程度麻醉后头弄过对新闻进行文本情感分析得出来思维政治人物的评价。徐琳宏和林鸿飞则从句子的角度出发,分析句中的词汇及句子的结构,再利用情感词典分析并捕捉9个可以体现情感倾向的特征,并融合情感本体识别后的特征,进而分析文本情感极性。Hu和Liu认为分析文本情感倾向的关键是对形容词的提取与分析,他们以WordNet为参考,提取文本中的形容词并作为词的情感极性判断的依据,最后计算文本中的词与形容词的相似度来判断文本的情感倾向性。闻彬、何婷婷;在利用已有的情感词典资源的基础上,从语义理解的角度对文本进行情感分析,在识别情感词时,引入情感义原的概念,即对概念赋予情感极性,并对情感词的情感极性计算方法重新定义,最后在此基础上得出文本的情感倾向得分。
基于规则的文本情感分析方法优点是比较灵活,可以人为的加入多种词典以及多种搭配规则,但受到自然语言处理技术及相关抽取技术的限制,该方法易丢失文本数据中隐藏着的重要模式,而且随着语言现象日益增多,这种方法的覆盖面会越来越窄,很难构建比较完备的情感词典或相关的搭配规则。从上述的研究也可以看出,基于规则的文本情感分析方法的研究思路主要是通过情感词典来为句子中的每个词打分,最后为评论文本计算--个情感倾向分数,这个分数可以体现其情感极性。然而语言是极其复杂多变的文化产物,一个句子也并不是词语的简单线性组合,每个句子的语法、前后的关联、甚至标点都会影响句子的情感倾向,这些因素的组合其实是很复杂的非线性关系,因此基于规则的情感分析方法具有很大的局限性,会遇到性能瓶颈。
基于规则的文本情感分类的优点是较为灵活,可以认为的添加多种词典和规则搭配。但是考虑到自然语言处理技术以及相关抽取技术的限制,这种方法容易丢失文本数据中隐含的重要模式,并且随着语言现象的日益增加,这种方法的覆盖面也会越来越窄,非常难以构建出比较完备的情感词典或相关的搭配规则。
基于机器学习的文本情感分类方法
基于机器学习的方法主要将带有标签的训练语料进行特征提取和建模,从而用机器学习算法自动化地实现情感极性的判断。这类方法主要有支持向量机(SupportVectorMachine)、朴素贝叶斯(Naive Bayesian)、最大信息熵(Maximum Entropy)、条件随机场(Conditional Random Field)等。
在国外,Pang分别用朴素贝叶斯、最大熵和支持向量机这三种机器学习的方法对电影影评进行情感倾向性分析,并将实验结果与手工分类结果做比较,发现支持向量机.的效果最好。Moens则用机器学习方法在多种语言的文本上做情感分析研究,结果显示三种语言的情感分类准确率分别达到68%、70%、83%。由此可见机器学习方法在.外文情感分析中取得了-定的效果。
中文方面,唐慧丰通过抽取文本的名词、副词、形容词、动词等作为特征,通过信息增益、文档频率、CHI统计量和互信息等作为特征选择方法,分别选择中心向量法、.贝叶斯分类、K最近邻和支持向量机三种不同的机器学习方法做对比实验,获得了最优.的特征选择方法和机器学习方法的组合。夏火松等人叫利用TF-IDF 算法筛选特征项,并使用基于RBF核函数的支持向量机的机器学习算法对携程客户评论进行情感分析。于永波巧提出了评价单元的概念,即通过对特征以及该特征所修饰的属性的提取,将其构建为一一个评价单元,并用机器学习的方法对各个评价单元进行情感分析,实验获得的情感分析准确率达到了78.37%。万源提出一种基于模式匹配的情感分析方法,通过大量的评论文本分析,总结10种常见模式,从而对特征进行了规范与改进,经过情感分析实验获得了81.8%的准确率。
机器学习分类的效果往往取决于特征的选择,人工选择特征存在着很大的不确定性,而且这类方法在对语料建模时用到的函数--般比较简单,难以捕捉深层次的特征,建模.能力和泛化能力都有很大的局限性。
基于深度神经网络的文本情感分析方法
深度神经网络利用多层非线性的网络结构对数据进行建模,具有优秀的层次结构特征的学习能力,从而弥补了机器学习的局限性。
深度学习在文本情感分析领域的应用主要分为两个部分。第一个部分是神经网络语言模型,早在1986年Hinton等人就提出了词的分布式表示(distibuted representation)方法,它的基本思想是通过神经网络语言模型将词映射成低维实数向量空间中的一个向量,通过计算词之间的余弦相似度或欧氏距离来判断他们之间的语义相关性。2003年.Bcngio等人实现了通过神经网络训练基于分布式表示的词向量的方法,并给出了公.式。MiolowI91IPI在2013 年提出了一个word2vcc的工具包,里面包含了几种新的构造词嵌入的模型和方法。神经网络语言模型可以将文本映射到-一个低维向量,同时训练得到的分布式表示的词向量还带有语义信息,解决了传统的文本表示方法onc-hot representation高维、稀疏且不含有语义信息的缺点。
第二部分是通过神经网络模型捕捉文本深层次的特征及隐含的模式,从而使模型对文本有更好的理解。Kim提出使用CNN (convoluin ncural nctwork) 进行句子建模,应用在情感分类任务中,在多个数据集上均取得了很好的结果。SochcrI”在对影评进行情感分析时,引入了递归神经网络,和传统方法比较取得了明显的成效。在国内,朱少杰四将浅层特征与神经网络模型word2vcc训练得到的词向量特征加权融合后通过SVM机器学习算法分类,并用传统机器学习方法做对比实验,得到的情感分类的正确率达到了81.98%。刘艳梅叫通过卷积神经网络获取文本语义特征,然后用RNN与SVM组合构建分类器,与基于情感词典方法的情感分类做对比,分类正确率得到显著提升。梁军、柴玉梅等人在进行情感分析时,引入LSTM模型和RNN模型,LSTM 模型可以有效保存文本的历史信息,而RNN模型又能充分利用句子本身的结构信息,最终该模型运用在斯坦福大学提供的影评数据集上进行情感分类,得到88.1%的分类正确率。
本文研究内容介绍
本文本主要的工作是深度神经网络在自然语言处理领域的研究,具体的研究问题是微博文本的情感分析。在研究情感分问题时,结合当今比较热门的深度神经网络方法,恩熙情感分析问题的本质。 本文的主要研究内容如下:
(1)本文研究分析了文本情感分析的几个常见步骤,包括文本表示方法、特征剑魔和构建分类模型等。在文本表示时,针对高维度和语义不相关的问题,本文使用词嵌入的方法,用深度神经网络语言模型对采集大量的微博语料进行训练,并在此基础上使用分布式表示来表示文本。对微博进行预训练得到的文本含有一定语义信息,有助于神经网络分类模型更好的理解。
(2)本文使用的是LSTM神经网络模型,对优化后的文本表示挖掘深层特征 。用预训练的分布式表示方法表示文本,然后作文LSTM神经网络的输入,利用LSTM神经网络捕捉文本序列特征以及上下文的依赖关系。最后通过对比试验验证了本文方法的有效性。
请支付后下载全文,论文总字数:14618字