基于K-means的聚类分析及改进文献综述
2020-05-04 21:18:05
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类无论在商务领域,还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。k-means算法是聚类算法中主要算法之一,它是一种基于划分的聚类算法。该算法有很多优点:
(1)是解决聚类问题的一种经典算法,简单、快速;
(2)对处理大数据集,该算法保持可伸缩性和高效性;
(3)当簇接近高斯分布时,它的效果较好。
但也存在很多缺点:
(1)对于离群点和孤立点敏感;
(2)k值比较难选择选择;
(3)初始聚类中心的选择;
(4)只能发现球状簇。
本文在该算法的研究基础上,试图将该算法进行改进。同时在算法应用方面,将聚类技术用于客户细分方面,客户细分是企业能够进行有效客户管理的前提和依据,比如,分析一个公司的客户分类,这样可以对不同的客户使用不同的商业策略,或是电子商务中分析商品相似度,归类商品,从而可以使用一些不同的销售策略等等。因此这方面的研究具有实际指导意义。
国内外研究现状:
1967年,MacQueen首次提出k-means算法,但是它只有在簇平均值被事先定义好的情况下才能使用,加之对噪声数据的敏感性等,使得算法的适用性较差。因此,出现一些改进算法,主要有Kaufman等提出的k-中心点算法PAM和CLARA算法,其他有代表性算法有EM算法、Clarans算法等。1998年,Huang等提出一种适合与分类属性数据聚类的K-modes算法,并且证明了经过有限速迭代收敛于局部最小值。2001年,Chaturvedi等提出一种面向分类属性数据的非参数聚类方法,Huang证明了他与K-modes算法是等价的。2002年,Sun等人将Bradley等迭代初始点集求精算法应用于K-modes算法。2004年,Ding等提出了一致性保留的K-means算法。