基于Word2vec的文本相似度算法的研究和设计开题报告

2022-01-08 22:20:02

全文总字数：1372字

1. 研究目的与意义及国内外研究现状

自然语言处理，英文是naturallanguage process, 共分为两部分自然语言生成系统把计算机数据转化为自然语言，便于人类的理解，自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

文本相似度的计算作为自然语言处理的重要组成部分，在信息检索、文本分类、文档聚类、主题检测、主题跟踪、问题生成、问答、论文评分、短答题、机器翻译、文本摘要等任务中，在文本相关研究和应用中发挥着越来越重要的作用。词汇相似性是文本相似性的基本组成部分，是句子、段落和文档相似性的主要阶段。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容

借助于谷歌2013年发布的word2vec工具，基于向量空间模型，尝试对传统的文本相似度计算方式改进，并实验。

3. 实施方案、进度安排及预期效果

序号	起止时间	工作任务
01	2018/01/01-2018/01/05	理解论文要求，编写并提交任务书。
02	2018/01/06-2018/01/09	查阅资料，编写并提交论文开题报告。
03	2018/01/10-2018/02/28	查阅文献，对于传统相似度的计算方法理解，对于文本的特征提取代码的实现
04	2018/03/01-2018/03/31	编写代码，实现传统的相似度算法
05	2018/04/01-2018/04/30	在传统的相似度算法上进行创新，并代码实现
06	2018/05/01-2018/05/20	撰写论文，进行毕业论文查重，答辩资格获取，提交毕业论文定稿，准备答辩。

4. 参考文献

[1]r. girshick fast r-cnn (2015)

[2]asurvey of text similarity approaches

[3]tomasmikolov, ilya sutskever, kai chen, greg corrado, and jeffrey dean. distributedrepresentations of words and phrases and their compositionality.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码