基于word2vec的中文文本相似度计算开题报告
2020-08-13 20:43:49
1. 研究目的与意义(文献综述)
word2vec是google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括 cbow和skip-gram。
使用word2vec处理新闻内容,可以进行自动分词并得到词向量。通过训练得到的词向量我们可以进行相应的自然语言处理工作,比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cosine相似度,并排序。也可以在训练时,设置-classes参数来指定聚类的簇个数,使用kmeans进行聚类。
本课题的内容就是利用word2vec对新闻内容进行自动分词并做相似度计算。
2. 研究的基本内容与方案
完成的主要任务及要求:
1.查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成800字开题报告;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
4.完成系统的编码与调试;
5.完成10000字以上的毕业论文;
6.进行论文答辩。
研究方法:
3. 研究计划与安排
1.2017/1/14—2017/2/22:确定选题,查阅文献,外文翻译和撰写开题报告;
2.2017/2/23—2017/4/30:系统架构、程序设计与开发、系统测试与完善;
3.2017/5/1—2017/5/25:撰写及修改毕业论文;
4.2017/5/26—2017/6/6:准备答辩。
4. 参考文献(12篇以上)
1.《word2vec的核心架构及其应用》熊富林、邓怡豪、唐晓晟,北邮2015年
2.《word2vec的工作原理及应用探究》周练,西安电子科技大学,2014年
3.《word2vec对中文词进行聚类的研究》郑文超、徐鹏,北京邮电大学2013年