基于word2vec的中文文本相似度计算开题报告

2020-08-13 20:43:49

1. 研究目的与意义（文献综述）

word2vec是google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库，通过优化后的训练模型快速有效的将一个词语表达成向量形式，其核心架构包括 cbow和skip-gram。

使用word2vec处理新闻内容，可以进行自动分词并得到词向量。通过训练得到的词向量我们可以进行相应的自然语言处理工作，比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cosine相似度，并排序。也可以在训练时，设置-classes参数来指定聚类的簇个数，使用kmeans进行聚类。

本课题的内容就是利用word2vec对新闻内容进行自动分词并做相似度计算。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

完成的主要任务及要求：

1.查阅15篇相关文献（含2篇外文），并每篇书写200—300字文献摘要（装订成册，带封面）；
2.认真填写周记，完成800字开题报告；
3.完成5000中文字以上的相关英文专业文献翻译，并装订成册（中英文一起，带封面）；
4.完成系统的编码与调试；
5.完成10000字以上的毕业论文；
6.进行论文答辩。

研究方法：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

1.2017/1/14—2017/2/22：确定选题，查阅文献，外文翻译和撰写开题报告；

2.2017/2/23—2017/4/30：系统架构、程序设计与开发、系统测试与完善；
3.2017/5/1—2017/5/25：撰写及修改毕业论文；
4.2017/5/26—2017/6/6：准备答辩。

4. 参考文献（12篇以上）

1.《word2vec的核心架构及其应用》熊富林、邓怡豪、唐晓晟，北邮2015年

2.《word2vec的工作原理及应用探究》周练，西安电子科技大学，2014年

3.《word2vec对中文词进行聚类的研究》郑文超、徐鹏，北京邮电大学2013年

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码