基于自然语言处理的情感分析研究毕业论文
2022-01-14 20:57:09
论文总字数:20592字
摘 要
随着互联网技术的快速发展,网上购物的用户在不断增加,由此产生了海量的用户评论信息。大量的用户评论信息隐藏了用户对商品的喜恶,成为人们选购物品的依据,也使得对用户评论的情感倾向分析成为衡量商品优劣的重要因素,因此,用户评论的情感倾向分析成为一个研究热点。
本文主要运用三种方法根据用户评论数据训练情感极性模型,并采用该模型预测用户评论的情感倾向。本文使用的数据集为SnowNLP团队提供的积极和消极数据集。具体研究工作如下:
首先,广泛了解现有文本情感分析技术,以及其性能和相关评价指标。其次,将数据集分类为训练集和测试集,选择支持向量机、贝叶斯分类算法、长短期记忆网络等三种算法对训练集训练模型,使用该模型预测测试集数据的情感倾向,分别给出训练准确率并针对三种算法做出对比分析,分析结果显示支持向量机模型效果最优。最后,对长短期记忆网络算法参数进行改进,提高测试集的预测准确率。
关键词:自然语言 情感分析 深度学习 支持向量机 朴素贝叶斯分类器
Emotion analysis based on natural language processing
Abstract
With the rapid development of Internet technology, shopping users on the Internet are increasing, which has generated a large amount of user comment information. A large amount of user comment information hides users' likes and dislikes of commodities, and becomes the basis for people to choose commodities. It also makes the analysis of user comment's emotional tendency become an important factor to measure the advantages and disadvantages of commodities. Therefore, the analysis of user comment's emotional tendency becomes a research hotspot.
In this paper, three methods are used to train the affective polarity model based on user comment data, and the model is used to predict the affective tendency of user comment. The datasets used in this article provide positive and negative datasets for the SnowNLP team. Specific research work is as follows:
First, a broad understanding of existing techniques for text emotion analysis, as well as its performance and related evaluation indicators. Second, classify the data into training set and test set, choose the support vector machine (SVM), bayes classification algorithm, long short-term memory network and so on three kinds of algorithm for training set training model, and use the model to predict test set data tendency of emotion, are given the training accuracy and to make a comparative analysis on three kinds of algorithms, the analysis results show that support vector machine model, the optimal effect. Finally, the parameters of the long - and short-term memory network algorithm are improved to improve the accuracy of the test set prediction.
Key words: natural language; emotion analysis; deep learning; support vector machine; naive bayes classifier
目录
摘 要 I
Abstract II
第一章 绪论 1
1.1课题背景及意义 1
1.2国内外研究现状 1
1.3课题研究内容 2
1.4论文结构 2
第二章 文本情感分析基础 4
2.1文本数据处理技术 4
2.1.1文本数据清洗 4
2.1.2文本数据分词基础 4
2.1.3文本去除停用词 4
2.2文本情感分析相关算法基础 5
2.2.1 高维向量基础 5
2.2.2支持向量机基础 5
2.2.3朴素贝叶斯分类基础 6
2.2.4 长短期记忆网络模型基础 6
2.3文本情感分析模型评估方法 9
2.3.1 训练集和测试集 9
2.3.2 权重值和偏置值 10
2.3.3 精确率和损失值 10
2.3.4 参数调整 10
2.4本章小结 10
第三章 文本情感分析模型建立与分析 12
3.1 文本情感分析相关工具 12
3.1.1 python 12
3.1.2 keras 12
3.1.3 sklearn 12
3.1.4 激活函数、损失函数和优化函数 12
3.2文本数据预处理实现 13
3.2.1文本数据分词实现 13
3.2.2词袋模型 13
3.2.3文本数据处理 14
3.2.4文本情感极性标签 14
3.3文本情感分析算法实现 14
3.3.1 支持向量机算法实现 14
3.3.2 朴素贝叶斯算法实现 15
3.3.3 长短期记忆神经网络实现 17
3.4 模型评估 19
3.5本章小结 22
第四章 文本情感分析算法的参数调整 23
4.1数据分析 23
4.2 长短期记忆网络的参数调整 23
4.2.1数据集 23
4.2.2 激活函数、损失函数和优化函数 24
4.2.3 其他 26
4.2.4 参数调整后的结果分析 27
4.3本章小结 27
第五章 总结与展望 28
5.1本文主要工作 28
5.2进一步的展望 28
参考文献 32
致谢 33
第一章 绪论
1.1课题背景及意义
随着互联网技术的快速发展,网上购物的用户在不断增加,由此产生了海量的用户评论信息。大量的用户评论信息隐藏了用户对商品的喜恶,成为人们选购物品的依据,也使得对用户评论的情感倾向分析成为衡量商品优劣的重要因素,因此,用户评论的情感倾向分析成为一个研究热点。通过基于自然语言处理的文本情感分析技术可以很好的实现对用户评论的情感分类,以便帮助用户从众多商品中选择优质评论率最高的商品。
用户商品的评论蕴含着巨大的信息量,其情感倾向的利用也具有广泛的商业价值,可以为买家提供购买商品的依据,为卖家提供改善商品的建议。另外,用户商品的评论为学术研究的发展起到很好的引导作用。
1.2国内外研究现状
近年来,文本情感分析技术在各个领域取得了很好的进展,有很多的算法可以用于解决文本情感倾向的分析问题。目前很多学者展开了文本情感分析的一系列研究。钟智锦根据传播学的应用,研究了文本情感分析,这给传播学的发展带来了很大的影响;常丹的基于词典的商品评论情感分析,以国内某电商平台上的商品评论为研究对象,根据词频共现方法拓展情感词典,基于构建的情感词典对评论进行情感极性分析;张俊飞的论文提出了双向LSTM算法应用于评教评语的情感分析,并实现利用上下文环境生成词向量来解决语义问题;支淑婷的论文完成了准确构建属性情感特征任务,可以掌握语义和上下文自主权,使用这些信息训练网络模型,更加深入挖掘情感特征,高效完成文本情感分析任务。
请支付后下载全文,论文总字数:20592字