评价对象抽取方法的研究毕业论文
2021-11-07 21:02:41
摘 要
评价对象抽取是细粒度情感分析中的一个重要任务。在提取出评价对象后,再对每个评价对象进行情感倾向性分析是细粒度情感分析的基本步骤。因而,评价对象抽取问题的有效解决,有助于细粒度的情感分析被广泛应用于产品反馈、个性化推荐、舆情分析等领域。目前针对评价对象抽取问题的方法,可以分为基于频率、基于模板规则、基于图论、基于机器学习和基于深度学习的方法。本文在对评价对象抽取问题进行细致梳理的基础上,对当前常用评价对象抽取方法进行了分析和对比,并尝试使用深度学习的方法解决这一问题。本文的主要工作包括:
- 对各种常用评价对象抽取方法进行分析,剖析了其基本原理、大致流程,总结、概括了这些方法的不足与差异。
- 构建了BiLSTM-CRF模型,利用在大规模语料库上预训练的中文词向量并结合词性特征进行显式评价对象的抽取,并通过实验对模型进行调优。
- 设计对比实验,将BiLSTM-CRF模型与CNN、CNN-CRF、LSTM、LSTM-CRF和BiLSTM这些常见的深度神经网络模型进行对比。
文中将评价对象抽取看作序列标注任务,将BiLSTM-CRF模型应用到句子级显式评价对象提取上。其中双向长短期记忆网络用于获取文本语义信息,条件随机场用于学习输入标签之间的约束关系。在三个来源于真实生活的数据集上进行实验,采用严格评价、宽松评价两种评价模式,实验结果说明了BiLSTM-CRF模型相对于其它模型性能更好。
关键词: 评价对象抽取,深度学习,条件随机场,细粒度情感分析
Abstract
Opinion target extraction is a fundamental task for fine-grained sentiment analysis as it points out the target of emotions contained in input corpus. Analyzing the emotion tendency for each opinion target after opinion target extraction is the basic process of fine-grained sentiment analysis. Therefore, the solution of Opinion target extraction is essential for the application of fine-grained sentiment analysis in fields like product feedback, personalized recommendation and public opinion analysis. Based on the analysis of the problem itself, in this thesis, different methods for opinion target extraction are discussed and we attempt to use deep learning methods to solve the problem. The main contents of this thesis are as follows:
- We analyze the currently leading opinion target extraction methods, conclude their main processes and main principles. Besides, advantages, disadvantages and differences between these methods are studied.
- Construct the BiLSTM-CRF model to extract opinion target. The model combines Chinese word vectors which trained on large scale corpus and part of speech as two features. We adjust the model by experiments.
- Design a set of experiment. We compare the BiLSTM-CRF model to common deep learning-based methods like CNN, CNN-CRF, LSTM, LSTM-CRF.
We reduce opinion target extraction as a sequence tagging task and attempt to apply BiLSTM-CRF model which based on deep learning methods to this problem. Bidirectional long short-term network is used to represent the semantic information of input sequence, onditional random fields is used to capture the dependence of adjacent of input label. Using strict evaluation mode and general evaluation mode, the result of experiments on three real life datasets shows that compared with base-line methods, BiLSTM-CRF model perform better comprehensively.
Key Words:Opinion target extraction, deep learning, conditional random fields, fine-grained sentiment analysis
目 录
第1章 绪论 1
1.1 研究背景和意义 1
1.2 国内外研究现状 1
1.3 本文研究内容 2
1.4 本文组织结构 2
第2章 评价对象抽取方法 4
2.1 问题定义 4
2.2 评价对象抽取方法分析 5
2.2.1基于频率的评价对象抽取方法 5
2.2.2 基于模板规则的方法 5
2.2.3 基于图论的方法 6
2.2.4 基于机器学习的方法 6
2.3 基于深度学习的评价对象抽取方法 6
2.4 本章小结 7
第3章 BiLSTM-CRF评价对象抽取方法 9
3.1 序列标注模型框架 9
3.2 特征选择 11
3.2.1 预训练词向量 11
3.2.2 词性特征 11
3.2.3 特征融合 11
3.3 BiLSTM-CRF模型结构 12
第4章 实验与分析 14
4.1 数据集描述 14
4.2 数据处理 14
4.3 对比方法 15
4.4 变量设置 15
4.5评价标准 16
4.5.1 严格评价模式 16
4.5.2 宽松评价模式 16
4.6 实验结果与分析 17
第5章 总结和展望 20
参考文献 21
致 谢 23
第1章 绪论
1.1 研究背景和意义
随着网络技术的发展,细粒度的情感分析被广泛应用于产品反馈、智能搜索、个性化推荐、舆情分析等领域。一般来说,细粒度情感分析分如下三个步骤进行:1)评价对象抽取和情感词识别;2)对每个评价对象进行情感倾向性分析;3)对分析结果进行统计[1]。
评价对象抽取是细粒度情感分析的基本任务之一,它指出了“情感分析”中的“情感”所针对的对象。用户的某条评论文本可能存在不同评价对象,也可能对不同评价对象有不同的情感倾向。而从语料的角度看,语料中的各个文本所针对的评价对象也不尽相同。如果按照传统的情感分析方法,直接对整个文本进行情感倾向性分析,不仅无法精确提取出各个评价对象的情感特征,同时也会导致结果因为针对的目标不明确而缺乏实际意义。若能够先提取出评价对象,再分析各个评价对象的情感,将会使结果更具有参考性。作为细粒度情感分析领域一个颇有挑战性的任务,评价对象抽取问题的有效解决,为挖掘出不同对象的情感倾向提供了途径。
1.2 国内外研究现状
评价对象抽取问题最早可追溯到2004年Hu[2]等对英文用户产品评论进行评价对象提取的研究,文中作者主要依据目标语料中评价对象出现频率较高这一特征来抽取评价对象。自此之后,国内外学者提出了大量方法和模型以尝试在评价对象抽取问题上获得更好的结果。