英国能源公司的消费者在Twitter上言论的情感分析外文翻译资料

2021-12-16 23:19:20

英语原文共 14 页

英国能源公司的消费者在Twitter上

言论的情感分析

Victoria Ikoro1, Maria Sharmina2, Khaleel Malik3 and Riza Batista-Navarro1

1School of Computer Science, 2Alliance Manchester Business School, 3Tyndall Centre for Climate Change Research

University of Manchester, Manchester, United Kingdom

Email: {victoria.ikoro | maria.sharmina | khaleel.malik | riza.batista}@manchester.ac.uk

摘要

自动情绪分析提供了一种有效的方法来衡量公众对任何感兴趣的话题的意见。然而，大多数情感分析工具都需要一个通用的情感词典来实现自动化。在一篇文章中对情感或观点进行分类。使用一般情感词典所带来的挑战之一是它会变得不敏感每当分配给这些单词的分数是固定的。因此，当一个一般的情感词典在一个领域中表现良好时，相同的词汇在另一个领域的表现可能会很差。大多数情感词典都需要调整到应用它的特定领域。本文介绍了英国能源消费者在Twitter上言论的情绪分析结果。通过将两个情感词汇的功能结合起来，我们优化了情绪分析的准确性。我们使用第一个词典来提取包含情绪的词汇和负面情绪，因为它在检测这些词汇方面表现良好。然后我们用第二个词典来分类其余的数据。实验结果表明，与常用的只使用一个词典的方法相比，该方法提高了结果的准确性。

关键词: 社交媒体分析，情绪分析，情感词典，英国能源部门

简介

尽管存在不利的关税，但仍有人担心英国消费者是否会依旧与旧能源供应商保持联系。重要的是要调查能源公司服务客户的哪些方面是积极的，以鼓励其改变。情感分析越来越受到从事自然语言处理的研究人员的关注，企业希望监控客户对其服务和产品的意见，公众希望对感兴趣的主题的意见进行检索[1- 5]。在这项工作中，我们使用来自Twitter的数据，对英国能源消费者与能源供应商之间的交互信息进行了情感分析。我们比较了消费者的观点，包括英国最大和最古老的天然气和电力供应商，即六大能源公司和三家新参与公司。虽然六大公司已经建立起来并且目前在英国拥有约80％的天然气和电力市场份额，但新参与公司的客户显著增长，部分原因在于他们对可再生能源的承诺。

（这项工作由曼彻斯特大学研究所资助。）

相关工作

情感分类有三种主要方法：机器学习，基于词典的方法，以及结合使用机器学习和词典来优化情感分类准确性的混合方法。在本研究中，我们专注于优化基于词典的方法，因为我们没有足够的训练数据来进行监督学习。 Hasan Saif等人[11]提出了一种基于词典的方法，用于在Twitter上进行情感分析，称为SentiCircles。这种方法受到很多关注，因为它能够在推文中考虑不同上下文中单词的共现模式，以捕获它们的语义，并相应地更新它们在情感词汇中预先指定的强度和极性。在其他工作[12]中，基于混合词典开发了一种称为SMARTA的情感分析模型，该混合词典基于领域知识改进了用于情感分析的一般词典。同时，在他们创建特定领域词典的工作中，Asghar等人[13]提出了一个统一的框架，它集成了信息理论概念和修订的术语加权措施，用于预测和分配修改的分数到领域特定的单词。他们根据三个主题领域（即药品，汽车和酒店）的数据集对系统进行了评估，并取得了可喜的成果。上述技术试图改进一般知识情绪词汇，并且具有相对稳定的优点，同时辨别特定于领域的词并分配准确的极性分数。

数据采集

提取能源公司的Twitter时间线，然后使用“in reply to status ID”（RSID）元数据字段，我们仅过滤响应客户消息而发送的那些帖子，即推文。将RSID与Twitter应用程序编程接口（API）一起使用，我们检索了客户发送给能源公司的原始消息。然后，我们将来自消费者的原始消息和来自公司的回复结合起来以检索对话线程。为了解释发送给可能被忽略的能源公司的推文，我们使用来自Twitter元数据的信息来检索客户的时间线，并过滤客户发送给能源公司的所有推文，包括那些未回复的推文。使用这种方法检索情绪分析数据的一个好处是，我们能够在特定的时间范围内检索消费者和能源供应商之间的对话线程。总共，我们收集了超过6万条推文，分布在9家能源公司。在本文中，我们将六大公司称为公司1-6，将新参与公司称为新公司1-3。

具体方法

情绪分析的挑战之一是缺乏注释数据集，可用于训练能够适应多个域中差异的模型[6]。例如，在本案例研究中，我们不知道任何用于培训模型的注释数据集，该模型可以准确地对与天然气和电力消费者体验相关的推文进行分类。因此，我们使用情感词典进行分析。有一些特定领域的词汇考虑了词语使用的变化以及正在评估词语极性的语境或社区。这在具有大量非标准英语的领域尤其需要，例如在金融领域[7]。但是，创建特定于域的字典可能非常昂贵且耗时[8]。对于本文研究的能源领域，有许多词在标准英语（表1）中的用法与其他领域的用法不同。我们通过结合两种情感词典即Sentimentr和Hu＆Liu观点词典的功能来优化情感分析的准确性。使用Senti-mentr是因为它包括价值移位器（消极，放大器，消极放大器和逆向连接），同时仍保持速度[9]。我们观察到，对于正在研究的领域，Sentimentr软件包在检测负面情绪方面表现良好，但是，它努力区分正面和中性推文。这可能部分是因为词典结合了许多词典，并且在人工检查时，我们注意到大多数被赋予正极性的推文都是中性的。为了避免这个问题，我们使用Sentimentr包来检索否定推文。在分析分配给单词的极性时，我们屏蔽了一些高频词，其中词典给出了误导极性。例如，我们将“smart”替换为“smartm”，将“compliance”替换为“compliancet”，因为它们是高频词并且极性错误。掩盖它们允许软件将它们视为中性（这是它们的域特定极性）而不是正面。我们通过Hu＆Liu观点词典[10]传递了剩余的数据，这更好地检测了正面和中性推文，并结合了词典的结果。图1显示了用于情绪分析的工作流程。

表1 一些特定于域的单词及其极性

单词	传统情感极性	特定域极性
Smart	积极	中立
Compliant	积极	中立
Power	积极	中立
Energy	积极	中立
Credit	积极	中立

图1 情感分析的工作流程

实验结果

我们手动检查了大约7％的总数据的结果。我们的方法与仅使用一个情绪包的常见做法相比表现良好。值得注意的是，从图2和图3可以看出，新进入能源公司与其消费者之间相互作用的测量情绪总体上比六巨头与其客户之间的互动更为积极。平均而言，六大能源公司客户的推文中有45％为消极，40％为中立，15％为积极。与此同时，平均约有19％来自新进入能源供应商客户的推文为消极，47％为中立，34％为积极。为了深入了解客户推文的主题，我们使用Latent Dirichlet Allocation（LDA）进行主题建模。 LDA是一种无监督模型，可用于从大型文本集合中识别可能的主题（单词组）。在LDA中，一旦初始数据被预处理，则为每个单词分配属于许多生成主题的概率。从语料库生成的主题数量n由用户设置，并且对于该工作，我们发现当n在20和25之间时生成最连贯的主题。选择每组单词中具有最高概率的单词表示特定组的主题。图4和图5中的频率轴表示对特定主题有贡献的推文的数量。但是，这个数字并不是唯一的，这意味着单个推文可以为一个或多个主题做出贡献。从图4和图5中我们可以看到六大公司以及新进入者中出现的一些共同主题。共同主题包括与公司客户服务，智能电表，工程服务，账单支付，等待时间以及燃气和电力供应相关的主题。但是，可以看出，来自新进入公司客户的推文所特有的一些主题涉及可再生能源和绿色能源。

图2 对六大公司客户推文的情绪分析结果

图3 对新进入能源公司客户的推文进行情绪分析

图4 对新进入能源公司客户的推文进行情绪分析

图5 对新进入能源公司客户的推文进行情绪分析

结论

我们通过收集能源消费者发送给他们的能源供应商的推文来呈现社交媒体分析的新颖应用。我们比较了与六大公司（英国最大和最古老的天然气和电力供应商）互动的消费者推文与三家新进入能源供应商的情绪分析结果。我们的研究结果表明，一般来说，新进入的能源消费者的情绪比来自六大消费者的情绪更为积极。主题建模表明，在围绕使用可再生能源的推文中讨论的主题方面存在很大差异。

在线短文本情感分析面临的挑战

Ritesh Srivastava

Computer Engineering Division, NSIT, Delhi University, New Delhi-INDIA

E-mail: ritesh21july@gmail.com

M.P.S. Bhatia

Computer Engineering Division, NSIT, Delhi University, New Delhi- INDIA

E-mail: mpsbhatia@nsit.ac.in

涉及分析在线短文本的挑战

本节讨论了在线微文（特别是推特数据）处理和分析所涉及的挑战。为此，根据我们的实证观察，我们将挑战分类如图1所示。一些挑战是显而易见的，可以很容易地识别出来。尽管如此，在许多文献[21-25]中已经探讨了很少的这些挑战，例如使用表情符号和语言。然而，一些挑战并不是很明显，只能通过对数据进行激烈的实验来探索和证明。本节将详细介绍其中一些挑战。

图1 对在线短文本挑战的分类

A.源于平台的挑战

平台继承由于使用特定于平台的符号和缩写在微文本中引入的噪声，会生成挑战。这些符号和缩写在微文中用于特殊目的。表1中已经提到了一些特定于Twitter的特定符号的简要描述。特定于Twitter的符号和概念的使用现在在其他微文本源中也非常频繁。图2描绘了推文的一般结构，并借助于框显示了所有可能的噪音。

虽然平台特定的符号，概念和缩写在许多意义上都非常有用（例如用于基于图的优化[13]），但是，它们也被认为是主要的噪声源。这些嘈杂文本的处理对文本的句法和语义分析提出了挑战。句法分析是任何文本对于利用文本的语法结构至关重要。

图2 一条推特的例子

B.源于用户的挑战

存在各种类型的噪声，这些噪声在从SNS，博客，电子商务站点和SMS中删除的文本内容中非常常见。这些嘈杂的文本需要进行强烈的预处理才能在实际使用前对其进行标准化。文本规范化是使非规范化文本保持一致的过程。文本规范化对于在线微文本的分析非常重要文本规范化的一些基本操作包括。将所有字母转换为大写或小写，将数字（日期，货币，温度）转换为单词，删除标点符号，扩展缩写，使用停用词列表删除停用词（，of，to，for，from等），阻止，删除重复的字符（例如'I looooove it!' → 'I love it!'），行话和俚语解析（例如“l8ter” → “later””）。 [24]中的观察声称，31％的Twitter数据和92％的SMS消息需要规范化。本节的其余部分将介绍一些基本的用户驱动噪音

1) 无意的拼写错误

无意拼写错误是那些由微文本作者错误地拼写的错误。在线微文本的拼写错误校正问题与传统的拼写错误校正问题有许多相似之处。这些拼写错误纠正问题包括（i）非单词错误，例如单错误拼写错误和多错误拼写错误和（ii）真实单词错误，例如依赖于上下文的拼写错误。单错误拼写可以进一步分为四个不同的类别;缺少一个字母（alphabet = alpabet），添加一个字母（alphabet

资料编号：[4773]

您需要先支付 20元 才能查看全部内容！立即支付

注册

找回密码