文本相似度检测系统文献综述
2020-04-12 16:22:23
一、课题背景 步入近代,人类的发展速度早超出古代人们所能够想象的范畴。
自从英国工业革命以来,科技的发展日益迅速,人类的知识呈指数式地爆炸增长,尤其是最近数十年,伴随着计算机的出现以及互联网的普及,每一个人都被海量的信息所淹没。
而文字是信息的最重要载体,在这个高度信息化的世界里,信息主要以文本的形式记录和保存。
如果没有有效的手段自动筛选出人们所需要的信息,那些海量的信息便失去了其所拥有的价值。
为了解决这一问题,互联网搜索引擎便应运而生。
用户在使用搜索引擎的时候,希望所返回的结果都是搜索的关键字相关但却互不相同的页面。
因而需要相关的算法实现文本之间的相似度检测,从这些文本中获取有价值而又不重复的部分。
在实际的应用中,使用最为广泛的便是空间向量模型,其原理是将所需对比文本映射到向量空间得到对应的文本向量,通过对文本向量间夹角的余弦值计算,得到文本间的相似度。
通过本文所讲的内容也是基于余弦相似度算法实现的。
文本相似度计算涉及信息处理相关的很多应用,是信息处理领域的一个相当重要的部分。
剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付