针对短文本读者情感分类的通用情感模型外文翻译资料

2021-12-26 17:23:17

英语原文共 12 页

针对短文本读者情感分类的通用情感模型

摘要：

随着Web 2.0社区的快速发展，社交媒体服务提供商为用户提供了一种方便的方式来分享和创建自己的内容，如在线评论，博客，微博/推文等。通过社交媒体了解这些短文本的潜在情感计算模型是一个重要问题，因为这样的模型将帮助我们识别社会事件并做出更好的决策（例如，对库存市场的投资）。然而，由于稀疏性问题（例如，推文是短消息）从上述用户生成的内容中检测情感总是非常具有挑战性。在本文中，我们提出了一种通用情感模型（UAM）来将读者的情感分类为未标记的短文本。与传统的文本分类模型不同，UAM在结构上由主题级和术语级子模型组成，并从社交媒体中的读者角度检测社交情感。通过对现实世界数据集的评估，实验结果验证了所提模型在有效性和准确性方面的富有成效。

1.介绍

随着社交媒体服务提供商的快速发展，有越来越多的情感数据，如评论和/或新闻文章的情感投票计数，反映了用户的情感倾向和观点（Bosco，Patti，＆Bolioli，2013）。作为现代世界最重要的媒介之一，网络不仅可以有效地传达用户的积极或消极情感，还可以表达更加详细的情感，如快乐，恐惧或惊喜（Shaikh，Prendinger，＆Ishizuka，2008）。许多在线新闻网站和社交媒体社区提供的情感投票服务使用户能够在阅读新闻文章后表达自己的情感（Bao et al。，2009）。社交情感挖掘技术在机器学习和自然语言处理方面引起了研究者的更多关注（Cambria＆White，2014），因为它们可以用于各种应用，包括情感检索（Ku，Liang，＆Chen，2006）和观点。摘要（Eguchi＆Lavrenko，2006）。社会情感分类的早期研究主要集中在识别每个单词的情感倾向，因为人们认为自然语言中的单词在表达各种情感中起着至关重要的作用（Kazemzadeh，Lee，＆Narayanan，2013）。SWAT系统（Katz，Singleton，＆Wicentowski，2007）采用了一个词 - 情感映射词典来判断看不见的新闻标题的社会情感，这个词典被监督方法所利用。情感期限模型（ETM）（Bao et al。，2009; 2011）从作者的角度模拟了情感与词汇之间的关联。这些提到的术语级模型在标记短文本的情感极性分类中表现良好（Rao等，2016），因为短文本中的单词比不同的情感标签更容易和准确地映射到情感极性。然而，那些假设单词是情感分析的独特关键特征的模型很难解决多标签文本中的情感模糊问题（Quan＆Ren，2010）。情感歧义指的是同一个词可以在各种情境中表达不同的情感。为了解决这个问题，建议通过情感 - 主题模型（ETM）探索特定主题下的情感分布（Bao et al。，2009）。这些主题代表了对象，现实世界事件或抽象实体，它们表明了情感的背景（Stoyanov＆Cardie，2008）。ETM从潜在变量主题模型的机制中学习，如Latent Dirichlet Allocation（LDA）模型（Blei，Ng，＆Jordan，2003），可以区分单个词的不同含义。ETM是为了从作者的角度而不是读者的角度进行情感分析而开发的。读者在阅读新闻文章后，更清楚地了解读者的情感，而作者的观点反映了作者撰写文章时的情感（Lin＆Chen，2008）。社交情感检测（ATM）的情感主题模型（Rao，Li，Wenyin，Wu，＆Quan，2014c）被提出用于通过引入情感中间层来检测读者对某些主题的情感。ATM的一个限制是难以检测来自短文本的情感，短文本经常发生在诸如推文之类的社交文档中。鉴于这些考虑因素，我们提出了通用情感模型（UAM）来从读者的角度检测短文本中的社交情感。本研究的主要贡献如下。bull;为了增强biterms之间的语义关系，我们将biterms与关键字结合起来，这些关键字由名为Average Term Frequency Inverse Document Frequency（ATF-IDF）的新范例提取。

bull;为了区分短文中同一个词的各种语义，我们提出了基于biterm主题模型（BTM）的UAM（Cheng，Yan，Lan，＆Guo，2014），采用桥接情感标签和主题的中间层。

bull;使用SWAT为语料库中的背景词建立单词级情感词典。

bull;通过对3种不同数据集进行实验，包括具有6种情感的明显小且不平衡的新闻标题，包含2种情感注释的大型社交网络短文档，以及在8种情感中注释的更大的在线新闻文章，所提出的模型的有效性是验证。本文的其余部分组织如下。在第2节中，审查了相关的研究。在第3节中，详细阐述了用于读者情感分类的UAM。实验在第4节中介绍。结论和未来的研究方向将在第5节中讨论。

2.相关工作

2.1情感分析

情感分析旨在识别和提取文档的态度（即，在线新闻阅读器对主题或文档内容的反应（Gangemi，Presutti，＆Reforgiato Recupero，2014））。在一些早期研究中，情感分析的任务是通过分析评论中的整个文本和评分分数来估计文本是正面还是负面（Cambria，Schuller，Liu，＆Wang，2013a）。Das和Chen利用分类算法（Das＆Chen，2001）从股票留言板中捕捉市场的潜在观点。这些潜在的意见被进一步用作金融市场决策的指导。Turney（2002）试图通过使用无监督学习方法对用户评论的情感方向进行分类。Pang，Lee和Vaithyanathan（2002）将电影评论分为正面或负面，算法是最大熵，朴素贝叶斯和支持向量机（SVM）的组合（Adankon＆Cheriet，2009）。然而，有些词可能表达特定领域应用中的不同情感（例如，牛市在金融市场中显示为正）（Bollegala，Weir，＆Carroll，2011），这些研究遇到了一个问题，即一个领域的数据训练的分类器可能达到另一个表现不佳（Pan，Ni，Sun，Yang，＆Chen，2010）。为了解决这个问题，已经提出了几种用于域独立情感分类的算法（Bollegala等，2011）。通过引入主题层来进行捕获相同单词的不同情感的另一解决方案。例如，Rao提出了一种用于自适应分类的语境情感主题模型（Rao，2016）。Poddar等人。提出了一个模型，通过联合建模方面，主题和情感来确定意见（Poddar，Hsu，＆Lee，2017）。考虑到计算机视觉中的显着性能，最近采用深度神经网络模型来对文档进行情感分析。在初步研究中，Kim（2014）采用卷积神经网络（Collobert，Weston，Karlen，Kavukcuoglu，＆Kuksa，2011）来生成用于句子分类的任务特定和静态向量。由于短消息中的上下文信息有限，Santos和Gattit提出了一种深度神经网络体系结构，它共同使用字符级，单词级和句子级的表示来进行情感分析（Santos＆Gattit，2014）。为了利用情感词典提供的信息，Shin等人将词汇嵌入和注意机制集成到卷积神经网络中进行情感分析（Shin，Lee，＆Choi，2016）。上述算法和模型主要应用于页面或段落级别的情感分类。如果使用更细粒度的级别（例如，句子或条款），则会发现一些限制（Cambria，Schuller，Liu，Wang，＆Havasi，2013b）。情感分析变得更具挑战性，因为观点持有者是匿名的，嘈杂的数据通常与有用的信息混合在一起（Moreo，Romero，Castro，＆Zurita，2012）。例如，许多虚假评论，冒犯性评论或广告评论总是出现在不同的电子商务网站和社交媒体社区中。因此，关于意见垃圾邮件过滤的另一系列研究（Jindal和Liu，2008; Moreo等，2012）和社交媒体中的噪声标签聚合（Zhan等，2017）。一些关于情感分析的调查研究讨论了该领域未来的研究方向（Cambria等，2013a; Cambria等，2013b）。

2.2社交情感检测

社交情感检测旨在识别由新闻标题引发的读者情感，自SemEval-2007任务出现以来，研究界越来越受到关注（Katz等，2007）。这项研究的基础是所有包含中性词的词都可以有效地表达作者的积极或消极情感，然后引起读者的相应愉快或痛苦的反应（Shaikh et al。，2008）。SWAT系统（Katz等，2007）通过单词情感词典检测未标记新闻标题的社交情感。在该词典中，每个单词与多种情感相关联，例如恐惧，愤怒，喜悦，惊喜等，每个标签分别具有情感评分。然而，新闻标题中的有限信息使得难以正确且一致地检测情感（Katz等，2007; Quan＆Ren，2010）。在动态词（ET）模型（Bao et al。，2009; 2011）和词 - 情感（WE）方法（Rao，Lei，Liu，Li）中考虑使用新闻项目中的所有单词。，＆陈，2014a）。ET旨在基于朴素贝叶斯分类器建立单词和情感之间的关系。WE方法使用最大似然估计来生成单词级情感词典，然后利用该词典基于新闻内容中的所有术语来检测情感。然而，由于模糊性问题，这些词级方法无法区分不同语境下相同词语的不同语义（即，同一个词可能在一个语境中传达正面情感，在另一个语境中传递负面情感）（Bollegala etal。，2011; He，Lin，＆Alani，2011; Quan＆Ren，2010）。为了解决这个问题，通过构建单词级嵌入，提出了一种语义丰富的混合神经网络用于社会情感分类（Li et al。，2017）。由于通过隐藏层将字从稀疏的1-V（这里V是词汇量大小）投影到低维向量空间上，因此这些嵌入本质上是编码单词语义的高级表示。

2.3标记主题模型

为了在上下文中区分同一个词的各种语义，已经在社交情感检测中广泛研究了标记的主题模型。Rao等人。提出了Emotion Latent Dirichlet Allocation（ELDA）模型（Rao et al。，2014a）来预测主题层面的社交情感。为了处理同义词和多义词，ELDA模型（Rao et al。，2014a）首先使用LDA生成原始的逐个文档矩阵到较低维度，然后通过每个主题估计社会情感的条件概率。最大似然估计。尽管ELDA可以捕捉涉及社交情感的潜在主题，但它本质上是一种基于特征减少的方法。更具体地说，ELDA通过采用无监督的方法来生成主题而无需指示情感标签。与ELDA不同，ETM（Bao et al。，2011）是一个联合的情感模型。它是标记的LDA（Ramage，Dumais，＆Liebling，2010; Ramage，Hall，Nallapati，＆Manning，2009）和联合情感 - 主题模型（JSTM）（Lin＆He，2009）在生成过程方面的延伸。标记的LDA约束模型使用文档中观察到的标签集内的主题。JSTM的生成过程在电影评论数据集的情感分析中具有良好的表现。在ETM中，中间层被引入LDA，主题被视为情感的重要组成部分。此外，ETM在不同情感下捕获并聚集了连贯的主题。实证结果表明，ETM模型比传统的机器学习方法（如SVM）更有效地用于社交情感检测。近年来，监督主题模型（STM）（Blei＆Mcauliffe，2010），主题 - 时间（TOT）模型（Wang＆Mccallum，2006）和用户 - 问题 - 答案（UQA）模型（郭，Xu，Bao，＆Yu，2008）已经提出，它们都适合从作者的角度进行分析。但是，这些模型建立了主题和单个标签之间的关系，而不是多标签。由于社会情感检测的任务是多标签分类问题，这些模型不能直接应用于此任务。最近，提出了两个主题模型，从读者的角度，称为多标签监督主题模型（MSTM）和情感潜在主题模型（SLTM）（Rao，Li，Mao，＆Wenyin，2014b），以克服这一局限。MSTM是STM的扩展，它首先从单词生成一些主题，然后从每个主题获得情感。同时，SLTM直接从社交情感中产生主题。同样，提出了情感主题模型（ATM）将每个主题与文字和情感联合起来（Rao et al。，2014c）。然而，这些模型很难为不同的语料库训练通用分类器。

2.4基于短文本的主题模型·

关于短文本聚类的研究主要集中在利用外部知识来丰富短文本。例如，Jin，Liu，Zhao，Yu和Yang（2011）通过辅助长文本数据的转移学习来学习短文本的主题。Phan，Nguyen和Horiguchi（2008）从大量外部资源中学习了隐藏的主题，以丰富短文本的表现形式。Sahami和Heilman（2006）提出了一种基于搜索片段的短文相似性度量方法。不幸的是，只有当外部数据集与原始语料库非常相似时，这些方法才能具有有效的主题分布。为了缓解文本稀疏性问题，因此提出了用于短文本聚类和主题学习的biterm主题模型（BTM）（Cheng等，2014）。BTM的关键思想是基于两个经常共同发生的单词更可能属于同一主题的假设来学习短文本的主题（Cheng et al。，2014）。具体而言，BTM将整个语料库视为主题的混合，其中每个biterm独立地从特定主题中提取。实验结果表明，BTM的有效性在短文本聚类和主题学习中优于LDA。为加速主题的抽样过程，何等人通过结合别名方法和Metropolis-Hastings采样（He，Xu，Li，He，＆Yu，2017）提出了FastBTM。然而，BTM和FastBTM都不适合社交情感检测，因为它们是无监督学习方法。通过巩固BTM的主要优势，UAM被提议用于短文本的社交情感检测。

3. 通用情感模型

通用情感模型（UAM）的提出是用于对读者在短文本上的情感进行分类。UAM在结构上分别由主题级和术语级的两个子模型组成。这两个子模型将分别从关键词语料库（即仅包含关键词的文档）和背景词语料库（即仅包含背景词的文档）中学习。确定单词是否是关键词的方法是计算整个语料库中的单词的ATF-IDF权重。在本节中，首先介绍了确定单词是否为关键字的ATF-IDF范例。其次，讨论了biterm的概念以及如何从文档中提取biterms。第三，正式定义

资料编号：[3435]

您需要先支付 20元 才能查看全部内容！立即支付

注册

找回密码