基于Spark大数据平台的高校学生就业系统设计任务书
2021-12-25 16:24:31
全文总字数:1581字
1. 毕业设计(论文)的内容、要求、设计方案、规划等
apache spark 是专为大规模数据处理而设计的快速通用的计算引擎。
spark是uc berkeley amp lab (加州大学伯克利分校的amp实验室)所开源的类hadoop mapreduce的通用并行框架,spark,拥有hadoop mapreduce所具有的优点;但不同于mapreduce的是job中间输出结果可以保存在内存中,从而不再需要读写hdfs,因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。
spark 是一种与 hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 spark 在某些工作负载方面表现得更加优越,换句话说,spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
2. 参考文献(不低于12篇)
[1]张友海,李锋刚.kmeans 算法的spark 实现及优化[j].西安文理学院学报(自然科学版).2017,(3):18-20,32.
[2]张雷.python与spark集群在收费数据分析中的应用[j].中国交通信息化.2017,(3):122-123,132.
[3]王珣.基于spark平台的大数据挖掘技术研究[j].微型电脑应用.2017,(6):64-66,80.