文本相似度检测系统文献综述

2020-04-12 16:22:23

一、课题背景　步入近代，人类的发展速度早超出古代人们所能够想象的范畴。

自从英国工业革命以来，科技的发展日益迅速，人类的知识呈指数式地爆炸增长，尤其是最近数十年，伴随着计算机的出现以及互联网的普及，每一个人都被海量的信息所淹没。

而文字是信息的最重要载体，在这个高度信息化的世界里，信息主要以文本的形式记录和保存。

如果没有有效的手段自动筛选出人们所需要的信息，那些海量的信息便失去了其所拥有的价值。

为了解决这一问题，互联网搜索引擎便应运而生。

用户在使用搜索引擎的时候，希望所返回的结果都是搜索的关键字相关但却互不相同的页面。

因而需要相关的算法实现文本之间的相似度检测，从这些文本中获取有价值而又不重复的部分。

在实际的应用中，使用最为广泛的便是空间向量模型，其原理是将所需对比文本映射到向量空间得到对应的文本向量，通过对文本向量间夹角的余弦值计算，得到文本间的相似度。

通过本文所讲的内容也是基于余弦相似度算法实现的。

文本相似度计算涉及信息处理相关的很多应用，是信息处理领域的一个相当重要的部分。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付