面向市场问卷调研的英文短文本相似度计算方法研究文献综述

2020-04-28 20:16:39

1．目的及意义

背景资料：

随着互联网应用的快速发展与变革，使得互联网上每天产生的数据量难以估计，并且互联网产生的数据多数是以文本形式或者最终会呈现为文本形式存在，比如Twitter和Facebook等社交媒体每天产生的大量新数据，比如Google每天产生的大量搜索日志，比如一些服务性问答系统的问答日志，这些数据以每天TB量级的增长着，而在大量的文本中，短文本的数量尤为庞大。研究表明，每天数十亿的的推文会在社交网络上公开发布，几乎每一条推文的字数都有至多三十个单词构成^[1]。短文本比长文本更能体现人们的思想，消费倾向，情绪等信息。这些短文本涉及着人们生活的各个领域,也逐渐成为人们广泛使用并且公认的交流方式,并且它也改变着人们的生活和沟通习惯。从这些数量庞大的短文本中挖掘其中所蕴含的潜在资源可以方便对它们进行管理、同时也可以用于信息的发现和分析。但是面对如此海量的短文本,人们很难快速的通过人工的办法来获取其中所蕴含的信息资源,所以利用计算机技术来对短文本进行挖掘和分析具有重要的意义。文本聚类是自然语言处理中最基础的技术,采用聚类技术对这些短文本进行分析和组织,能够挖掘文本内部文字之间的联系,进而有助于对这些信息的整体认识和管理。但是对于短文本来说,短文本本身和长文本不一样,它具有独特的特征,如字数少,表达简洁、缺乏丰富的上下文信息,包含的信息量有限,这使得短文本的特征稀疏,很难准确的抽取有效的文档特征,加之传统的文本聚类方法直接在短文本上使用的效果不佳,因此,这对短文本的聚类研究带来了更多的挑战,同时也导致短文本聚类技术的发展相对缓慢。目前,针对短文本的文本聚类的困难基本上有：如何解决短文本的特征稀疏问题,如何改善短文本聚类的质量、以及如何描述聚簇结果^[2]。

目的和意义：

本文的研究目的在于吸收和借鉴目前已有的英文短文本语义相似度计算方法，提出一种新的改进的基于语义的英文短文本相似度计算的方法，使得短文本之间的相似度量更加准确。

短文本相似度的计算的应用十分广泛。但是，直接将传统的主题模型（如LDA和PLSA）应用于这样的短文本效果不佳。其根本原因在于，传统的主题模型隐含地捕捉到文档级别的词语共现模式以揭示主题，从而远离了短文档中严重的数据稀疏性^[3]。本文研究的意义在于对已有的方法做出改良提高，英文短文本相似度测量的准确率。

国内外的研究现状分析：

l 国外短文本相似度计算方法研究状况：

由文献[4]的总结可知，在英文句子层面的相似度计算方面，研究主要集中在以概念为基本处理单元来计算句子间的相似度的方法上，主要包括以下三类:

（1）基于词重叠的方法，主要通过判断组成两个句子的词之间的重合程度来判断它们之间的相似程度。例如，Jaccard相似度系数方法，简单词重叠法，IDF重叠法，Zipfian重叠法，基本思想是两个句子所构成的词或短语重叠个数越多则两个句子的相似度就越大。

（2）基于大规模语料库统计方法，即TF-IDF方法：字词的重要性随着它在文档中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。利用TF-IDF各种形式加权的代表方法有LSA和HAL方法，Islamamp;Inkpen的方法，Allan的TF/IDF方法,Hoad还提出了另外的基于词频的方法。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码