登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 电子信息类 > 通信工程 > 正文

基于Hadoop的海量文本处理系统的设计与实现开题报告

 2020-11-13 21:36:13  

1. 研究目的与意义(文献综述)

1.1 研究目的及意义

随着信息化时代的到来,移动设备和互联网网络快速发展,互联网上产生的大量数据将我们带入了大数据时代。国际数据公司(idc)曾经发布报告称,2006年数字世界(digital universe)项目统计得出全球数据总量已达到0.18zb,并预测2011年全球将产生1.9zb的数据,将2012年称为“big date”年。

在海量的数据中有各种形式的数据,有文本数据,有图片视频等等,其中文本数据产生最多最广的海量信息,通过对这些文字信息的处理,我们可以获得大量有价值的信息,如商家可以更好的了解用户需求,政府可以通过这些信息了解民情、民意。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

2.1研究目标

本次毕业设计针对文本分词中训练阶段耗时较长,且处理海量数据速度慢的问题,研究海量文本分类的并行算法,基于词频反文档频率(tfidf)分类算法,设计出基于hadoop与并行tfidf算法的海量文本分类系统,并完成该文本分类系统的性能测试。

2.2研究内容

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

第1-3周:查阅相关文献资料,明确研究内容,学习毕业设计研究内容所需的理论基础。确定毕业设计方案,完成开题报告。

第4-5周:掌握java开发环境和使用方法,了解mapreduce的相关理论知识。

第6-9周:学习hadoop研究框架的使用和研究分布式算法,完成整个系统的前期设计工作。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

4. 参考文献(12篇以上)

[1]张学亮,陈金勇,陈勇.基于hadoop云计算平台的海量文本处理研究[j].无线电通信技术,2014,(01):54-57.

[2]王静宇,赵伟燕.基于hadoop平台的tfidf算法并行化研究[j].计算机工程与科学,2014,(06):1018-1022.

[3]晁平复,郑芷凌,房俊华,张蓉.支持通信数据查询分析的分布式计算系统[j].华东师范大学学报(自然科学版),2014,(05):89-102 116.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图