登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 软件工程 > 正文

基于word2vec的中文文本相似度计算文献综述

 2021-02-26 11:16:36  

1.目的及意义

Word2vec是Google公司在2013年开放的一款用于训练词向量的软件工具。它根据给定的语料库,通过优化后的训练模型快速有效的将一个词语表达成向量形式,其核心架构包括 CBOW和Skip-gram。

使用Word2vec处理新闻内容,可以进行自动分词并得到词向量。通过训练得到的词向量我们可以进行相应的自然语言处理工作,比如求相似词、关键词聚类等。其中word2vec中提供了distance求词的cosine相似度,并排序。也可以在训练时,设置-classes参数来指定聚类的簇个数,使用kmeans进行聚类。

本课题的内容就是利用Word2Vec对新闻内容进行自动分词并做相似度计算。

{title}

2. 研究的基本内容与方案

{title}

完成的主要任务及要求:

1.查阅15篇相关文献(含2篇外文),并每篇书写200—300字文献摘要(装订成册,带封面);
2.认真填写周记,完成800字开题报告;
3.完成5000中文字以上的相关英文专业文献翻译,并装订成册(中英文一起,带封面);
4.完成系统的编码与调试;
5.完成10000字以上的毕业论文;
6.进行论文答辩。

研究方法:

第一步:学习Word2vec,了解Word2vec的工作原理和算法机制,并掌握其应用方法。

第二步:查阅相关文档文献资料,了解课题所涉内容,翻译外文文献。

第三步:深度学习Word2vec,参考相关文献资料等,设计实现文本相似度的计算程序,实现新闻的自动分词并完成相似度的计算。

第四步:调试分析,撰写及修改毕业论文,准备答辩。

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图