短文本相似度算法研究及应用文献综述

2020-06-22 22:57:54

文献综述摘要本研究课题拟对当前自然语言处理中的短文本相似度计算问题进行研究，并尝试在相关数据上应用相关算法。

本课题拟在现有的研究基础上，重点探讨当前基于深度多层次表征的句子相似度计算模型，总结近几年最新的研究成果，研究其优化、改良、集成的方法，探索其在实际工程的应用。

关键词：自然语言处理文本相似度深度学习应用研究一引言随着互联网中信息量的迅速整张，自然语言处理技术（Natural Language Processing）被越来越多地应用于自动处理文本信息相关的任务。

而作为自然语言处理任务中的一种基本问题，句子相似度匹配任务（Text-Pair Classification）具有重要的研究及工程价值，对机器翻译、对话系统、机器阅读理解等高层次自然语言处理问题的研究有着一定的启发性。

本文首先具体定义了需要解决的问题及实际意义，随后从两个角度论述了当前句子相似度匹配问题的解决方案，对现有方法进行了总结，指出了当前研究的存在的待改进的部分，对潜在的创新点进行了展望。

二文本相似度问题定义由于文本相似度在不同的领域均有出现，所以其内涵也有所差异。

文献[1]对相似度的定义进行了综合性整理，指出Lin[2]的定义从信息论角度出发，由于其没有限制应用的领域，是较为通用的定义。

具体而言，该定义阐明相似度与文本之间的共性和差异有关, 共性越大、差异越小, 则相似度越高;共性越小、差异越大, 则相似度越低[1]，其结果如公式(1)所示：其中，表示语料和的共性信息，表示和的全部信息，公式(1)表达出相似度与文本共性成正相关。

此外，文献[3]指出，文本的相似度还可以从两个方面进行考量：句法形式及语义上。

本文侧重于语义上的文本相似度计算。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付