基于K-means的聚类分析及改进文献综述

2020-05-04 21:18:05

1．目的及意义

聚类分析是数据挖掘中的一个重要研究领域，是一种数据划分或分组处理的重要手段和方法。聚类无论在商务领域，还是在生物学、Web文档分类、图像处理等其他领域都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。k-means算法是聚类算法中主要算法之一，它是一种基于划分的聚类算法。该算法有很多优点：

(1)是解决聚类问题的一种经典算法，简单、快速;

(2)对处理大数据集，该算法保持可伸缩性和高效性;

(3)当簇接近高斯分布时，它的效果较好。

但也存在很多缺点：

(1)对于离群点和孤立点敏感；
(2)k值比较难选择选择;
(3)初始聚类中心的选择；
(4)只能发现球状簇。

本文在该算法的研究基础上，试图将该算法进行改进。同时在算法应用方面，将聚类技术用于客户细分方面，客户细分是企业能够进行有效客户管理的前提和依据，比如，分析一个公司的客户分类，这样可以对不同的客户使用不同的商业策略，或是电子商务中分析商品相似度，归类商品，从而可以使用一些不同的销售策略等等。因此这方面的研究具有实际指导意义。

国内外研究现状：

1967年，MacQueen首次提出k-means算法，但是它只有在簇平均值被事先定义好的情况下才能使用，加之对噪声数据的敏感性等，使得算法的适用性较差。因此，出现一些改进算法，主要有Kaufman等提出的k-中心点算法PAM和CLARA算法，其他有代表性算法有EM算法、Clarans算法等。1998年，Huang等提出一种适合与分类属性数据聚类的K-modes算法，并且证明了经过有限速迭代收敛于局部最小值。2001年，Chaturvedi等提出一种面向分类属性数据的非参数聚类方法，Huang证明了他与K-modes算法是等价的。2002年，Sun等人将Bradley等迭代初始点集求精算法应用于K-modes算法。2004年，Ding等提出了一致性保留的K-means算法。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码