网络评论观点挖掘方法研究与实现毕业论文
2021-11-05 19:25:52
摘 要
各种社交、视频、股票和音乐等网站的流行以及网络设备的普及,越来越多的人们开始使用互联网发表自己的观点。针对某一条新闻或者某一段影像,人们通常会在评论区内讨论事情的始末并抒发个人的意见。然而这些评论或者意见有时却会前后矛盾,情感不一。同一个人对相同事件或者新闻在不同时间有着完全不同的意见。
尽管自然语言处理的研究已经日臻完善,然而其中对上述现象的研究却相对较少。本文基于Transformer对评论内容随时间变化进行分析并使用多种观点挖掘模型分析评论内容.结合Transformer和观点分析算法找到文本中的情感变化点并分析文本变化的原因。
关键词:Transformer;情感分析;观点分析;评论变化
Abstract
With the popularization of various social websites, video websites, stock websites, music websites and networking devices, more and more people begin to use the Internet to express their opinions. For a certain news or a certain video, people usually discuss the content of them in the comment area and express their personal opinions. However, sometimes those comments or opinions are inconsistent and have different emotions. The same person has completely different opinions on the same event or news at different times.
Though the research on natural language processing has been perfected. There are relatively few studies relative to the above phenomena. This thesis used Transformer model to analyze the changes in comment content over time and using variety of opinion mining models to analyze the comment content. In this thesis, we combine Transformer model and opinion mining algorithms to analyze the reasons behind reviews’ change.
Key Words:Transformer; Sentiment analysis; Opinion mining; reviews change
目录
第1章 绪论 1
1.1 研究目的、意义 1
1.2 国内外研究现状 1
1.3 主要研究目标 2
第2章 相关工作 3
2.1 情感变化和词向量 3
2.2 Transformer模型 3
2. 2. 1 自注意力机制 4
2. 2. 2 位置编码 4
2.3 Doc2vec 5
2.4 CUSUM 6
2.5 LDA和TFIDF 6
2.6 NER 7
2.6.1 LSTM 8
2.6.2 CRF 8
第3章 模型架构 10
3.1评论变化查找模块 10
3.1.1 Transformer模型查找变化点 10
3.1.2 Doc2vec模型查找变化点 11
3.2 变化点信息挖掘模块 11
3.2.1 TFIDF信息挖掘和LDA信息挖掘 11
3.2.2 NER模型信息挖掘 11
第4章 实验数据和试验内容 13
4.1 实验数据和环境配置介绍 13
4.2评论变化查找部分 13
4.3 评论变化点分析 16
4.4 观点分析方法的比较 24
第5章 总结及展望 27
5.1 总结 27
5.2 未来展望 27
参考文献 29
致谢 30
绪论
本章将从研究的目的和意义出发,对国内外的观点挖掘、情感分析等研究现状进行分析。并说明本文的研究方向和贡献。
研究目的和意义
随着社交网站和各种视频,音乐等网站的流行和电子设备的普及,越来越多的人使用网络来与他人进行交流。在各种社交媒体上抒发自己的观点或是在视频的评论区中进行讨论成了人们与他人交流的主要媒介。每天这些网站上都会产生数以十亿计的评论和留言。然而这些评论的内容有时会出现反复的现象。同一个人对相同的新闻或者影像在不同的时间里会表达出完全不同的评论。例如现在网络中常有的“吃瓜”现象,对于讨论的问题很多人往往会站队跟帖发表意见。由于事不关己,当事情发生发展或者反转这些人也会见风使舵发表完全不同甚至相反的评论。比如B站上的视频博主“虎子”,他在视频中宣传自己父母多病、创业失败甚至身患癌症晚期。在他的视频中他是抗癌斗士,但是事实上他却利用好心人捐助的钱去做足疗吃大餐。当事情曝光之后,他拍摄的视频留言里画风大变,被骗的好心人开始抨击他的行为,“吃瓜群众”也在评论上“踩”上两脚。本文的研究目的就是找到这些评论变化的原因。
1.2 国内外研究现状
自然语言的处理在研究文本的内容上有着二十多年的历史,早在1998年WordNet: An electronic lexical database[4]一书中就已经提出了电子词典的设想,它不仅仅把单词按照字母顺序进行排列还根据单词的意义组成网络。WordNet将单词简单的按词性进行划分为名词、动词、形容词和副词并将它们各自组成为一个单独的网络,而在这些网络中单词之间也由不同的关系相连接。在2013年由Google开发的开源词向量工具—word2vec[3]给自然语言处理带来了新的波澜。Word2vec让人们真正开始使用神经网络模型来处理文本。起初人们使用独热向量(one-hot vectors)来代表单词,但由于单词的数量级过大采取另一种分布式语义表示方法来对单词进行表示。它能很好解决单词数量级过大的问题并能显示的度量单词之间的相似程度。在word2vec工具被开发之后,人们将神经网络模型和word2vec更加紧密的联系起来。更多的神经网络模型例如CNN(Convolutional Neural Networks) [18],RNN(Recurrent Neural Network) [12]被使用在情感分析和观点分析的研究中。而在2017年由Google提出的论文Attention is all you need [16] 又一次给自然语言处理的领域带来革新。论文中提出的Transformer模型仅使用注意力机制来训练数据并能够让一句话中的每一个单词和这句话中其他所有的单词都建立关系。Transformer模型在各个自然语言处理的各个领域中都有着好的表现。
国内的学者也在自然语言处理方面有着卓越的研究成果,在各类顶级期刊和杂志中都能看到中国学者的名字。本文中研究的评论数据随时间变化的研究也参考了李欣在ACL发表的论文Exploiting BERT for End-to-End Aspect-based Sentiment Analysis [17]。尽管研究情感分析和观点分析的研究很多,但是随时间研究评论变化的论文却相对较少。因为大多数的研究者都把目光着眼于分析句子集的内容中,对整体评论的研究偏少。本研究则关注一段时间内整体评论的变化进行分析,并找到这些评论变化的原因。
1.3 主要研究目标
这篇论文的研究目标是通过分析评论随时间的变化,并找到这些变化产生的原因。受到Sotiris论文[6]的影响,本篇论文通过分析评论的情感来判断评论的变化情况。在Sotiris的论文中,它提出了电子词典 Cumulative SUM (CUSUM)的模型对推特进行分析,根据分析评论的情感来判断评论的变化。本论文也采用类似的方式对数据集进行分析,另外由于认识到评论作为一个整体的变化,也采用doc2vec[2]来对评论的变化进行分析。除此之外,仅仅找到评论的变化并不能理解变化产生的原因。这里采用观点分析对采集到的变化点附近的评论进行处理。这里我们使用LDA (Linear Discriminant Analysis)模型、TFIDF(Term Frequency-Inverse Document Frequency)、NER(Named Entity Recognition)[1]进行处理,并对比不同模型对数据处理的效果。在分析之后我们能够得到评论变化产生的原因。