登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

Spark与MapReduce2.0在异构环境下的性能对比与分析研究开题报告

 2021-12-18 21:56:59  

全文总字数:2353字

1. 研究目的与意义及国内外研究现状

spark是基于内存计算的大数据并行计算框架。spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。mapreduce作为经典的分布式大数据处理框架,已经被人熟知,尤其随着yarn的兴起,mapreduce诞生了2.0版本。然而,在大数据处理方面,2个框架都是性能比较好的框架。但是诸多开发者很少能清楚的分辨出两者在不同环境下的性能优劣,所以spark与mapreduce2.0在异构环境下的性能对比与分析有其必要性。

从上面的论述来看,本课题研究的目的在于理解spark和mapreduce框架的运行流程,找出两者的异同点。这样当我们需要搭建一个大数据运行框架的时候,可以对搭建的框架的用途进行详细的分析,从而选择适合的大数据处理的框架。这样可以达到事半功倍的效果。

研究意义在于理解大数据框架,搭建测试床,多个异构环境的建立,这样对于数学建模的方法也可以得到锻炼。

国内外研究现状

在过去几年,apache spark的采用以惊人的速度增加着,通常被作为mapreduce后继,可以支撑数千节点规模的集群部署。在内存中数据处理上,apachespark比mapreduce更加高效已经得到广泛认识;但是当数据量远超内存容量时,我们也听到了一些机构在spark使用上的困扰。因此,国内外spark社区一起,投入了大量的精力做spark稳定性、扩展性、性能等方面的提升。既然spark在gb或tb级别数据上运行良好,那么它在pb级数据上也应当同样如此。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容

熟悉大数据处理框架的相关知识,包括spark和mapreduce的核心技术以及现今国内外的研究的热点问题;

学习linux系统的使用,这是实现平台模拟的关键,还包括一些实用工具的学习;

搭建两个测试环境,建立数据测试床以及异构环境的搭建,测试分析;

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 实施方案、进度安排及预期效果

2015.12-2016.2,前期大量的阅读文献包括Spark和MapReduce架构的文章,熟悉Linux操作系统的操作,同时也要提高自己的编码能力;

2016.2-2016.3,中期搭建两个大数据框架,同时建立测试床,在完成整个实验平台的搭建之后,详细分析,建立异构环境分析比较两个框架;

2016.3-2016.5,后期论文的撰写,修改。

4. 参考文献

[1] d. hall. a scalable language, and a scalable framework.http://www.scala-blogs.org/2008/09/scalable-language-and- scalable.html.

[2] rajendra bose, james frew, lineage retrieval for scientific data processing: a survey, acmcomputing surveys (csur), v.37 n.1, p.1-28, march 2005 [doi10.1145/1057977.1057978].

[3] c. t. chu, s. k. kim, y. a. lin, y. yu, g. r. bradski, a. y. ng,and k. olukotun. map-reduce for machine learning on multicore. in nips 06,pages 281-288. mit press, 2006.

剩余内容已隐藏,您需要先支付 5元 才能查看该篇文章全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图