基于Spark大数据平台的高校学生就业系统设计任务书

2021-12-25 16:24:31

全文总字数：1581字

1. 毕业设计（论文）的内容、要求、设计方案、规划等

apache spark 是专为大规模数据处理而设计的快速通用的计算引擎。

spark是uc berkeley amp lab (加州大学伯克利分校的amp实验室)所开源的类hadoop mapreduce的通用并行框架，spark，拥有hadoop mapreduce所具有的优点；但不同于mapreduce的是job中间输出结果可以保存在内存中，从而不再需要读写hdfs，因此spark能更好地适用于数据挖掘与机器学习等需要迭代的mapreduce的算法。

spark 是一种与 hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 spark 在某些工作负载方面表现得更加优越，换句话说，spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 参考文献（不低于12篇）

[1]张友海，李锋刚.kmeans 算法的spark 实现及优化[j].西安文理学院学报(自然科学版).2017,(3)：18-20，32.

[2]张雷.python与spark集群在收费数据分析中的应用[j].中国交通信息化.2017,(3)：122-123，132.

[3]王珣.基于spark平台的大数据挖掘技术研究[j].微型电脑应用.2017,(6)：64-66，80.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码