基于MapReduce的K-Means聚类算法的并行实现开题报告

2020-04-12 16:24:16

1. 研究目的与意义（文献综述）

随着互联网的飞速发展，用户每天产生的数据呈现了爆炸性的增长，大数据的时代正式到来。如何从用户产生的数据中获取到有效的信息，一直是学术界以及工业界感兴趣的问题，为此数据挖掘技术应运而生，传统的数据挖掘的算法主要有c4.5算法、k均值聚类算法、支持向量机算法、关联算法、最大期望算法、pagerank算法、adaboost算法、k最邻近算法、朴素贝叶斯算法、cart分类算法十种。其中k-means聚类算法作为一种基于划分的聚类算法，由于其简单高效，因此成为运用比较广泛的一种算法。

但是，传统的k-means算法在数据量非常大的时候，算法的运行效率非常低，因此在海量数据挖掘的时候效果并不是非常理想。

非常幸运的是谷歌针对处理海量数据早就提出了mapreduce并行计算模型，而且mapreduce极大的简化了并行程序的设计。因此，使用mapreduce并行计算模型来改善k-means聚类算法是一个非常不错的思路。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

研究的基本内容：针对经典的k-means聚类算法，使用mapreduce计算模型，应用hadoop框架实现k-means算法的并行化。

目标：改善k-means聚类算法。

技术方案：主要采用hadoop框架和mapreduce计算模型。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

(1)2018/1/14—2018/3/5：确定选题，查阅文献，外文翻译和撰写开题报告；

(2)2018/3/6—2018/4/30：系统架构、程序设计与开发、系统测试与完善；

(3)2018/5/1—2018/5/25：撰写及修改毕业论文；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

1. hartigan, john a., and manchek a. wong."algorithm as 136: a k-means clustering algorithm." journal ofthe royal statistical society. series c (applied statistics) 28, no. 1(1979): 100-108.
2. wu, xindong, vipin kumar, j. ross quinlan, joydeep ghosh, qiangyang, hiroshi motoda, geoffrey j. mclachlan et al. "top 10 algorithmsin data mining." knowledge and information systems 14, no. 1 (2008):1-37.
3. kantardzic, mehmed. data mining: concepts, models, methods,and algorithms. john wiley amp; sons, 2011.

4. lin k, li x, zhang z, et al. a k-meansclustering with optimized initial center based on hadoop platform[c]//computerscience amp; education (iccse), 9th international conference on. ieee, 2014:263-266.

5. cui x, zhu p, yang x, et al. optimizedbig data k-means clustering using mapreduce[j]. journal of supercomputing,2014, 70(3): 1249-1259.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码