基于集成学习的无监督聚类算法研究文献综述

2020-04-15 18:04:25

1．目的及意义

1 研究背景

1.1 研究目的及意义

随着聚类技术及相关算法在近些年来发展迅猛，聚类分析在各种领域中发挥着重要作用，如：模式识别，图像处理，商业智能，数据挖掘，文档分析，市场研究，生物学和用户推荐。在过去聚类算法几十年的发展历程中，已经针对各个不同的用用场景开发了相应的聚类算法。目前，人们提出了许多聚类算法，例如，k-means算法，k-modes算法，FCM算法等等。但相对地，往往，一种聚类算法在某一领域或者某类数据集中展现出较好的特性，在另一类为问题中，表现却差强人意。有的聚类算法可以发现任意形状的簇类；而有的聚类算法则只能发现单一形状的簇类。并且，这些算法不同的初始条件和参数往往会导致不同的聚类结果。因此，找到一种可应用于所有数据集的聚类算法是非常困难的，因此改进了各种聚类算法，并提出了不同的聚类算法。为了解决这个问题，有学者在2003年提出了聚类集成的概念。

在聚类集成中，一般选择使用一致性度量来评估和选择个体聚类结果，通过对选择的个体聚类结果进行集成, 可以提高最终结果的准确性、稳定性。聚类集成往往包含4个组成部分：生成、评价、选择和组合。首先, 通过使用不同的聚类算法或重复一种算法生成多个聚类结果, 这些结果可以在每次运行时随机产生;其次, 一个共识度量 (如归一化互信息) 来评估产生的结果;再次, 通过阈值选择评估结果;最后, 通过聚类集成机制，设计一个共识函数，得到最终的聚类结果。

在聚类集成算法中有三大问题亟待解决，首先是生成策略，之后是度量评价，最后是阈值生成。因此，为了解决这些问题，进而探索一些性能优异，稳定的无监督学习的聚类集成算法。

1.2 国内外研究现状分析

关于聚类的探索能够追溯到 20 世纪 40 年代，Driver 和 Kroeber 在 1932年，第一次运用聚类分析的思想来研究人类学，随后 Robert Tryon 在 1939 年把聚类思想应用到了心理学的研究领域中。直至现在，聚类得到了人们的广泛关注，经过 80年的努力提出了许多聚类算法，并且在很多领域中得到重要应用。

针对聚类分析这个广阔的研究领域，目前人们的研究重点主要集中在以下几

个方面：（1）在大规模数据的聚类过程中，如何为聚类提供有效地分析方法；（2）何提高聚类方法的有效性和可扩展性；（3）如何对高维数据进行聚类分析。

与国外相比，我国的聚类研究起步较晚，最早的研究项目是在1993年时才首次提出的，该研究项目是在国家自然科学基金的支持下，由中科院合肥分院着手。近年来，国内对于数据挖掘和聚类方面的研究逐渐增多，呈现出蓬勃发展的趋势，有关这方面的论文也是层出不穷。与此同时，我国多次举办了有关数据挖掘方面的国际会议，例如，ACM SIGSOD 国际数据管理会议等。这些均充分显示了学者们对数据挖掘这一领域的研究热忱，也充分显示了我国对这一领域的重要关注。

Alexander Topchy等人于2005年提出引入多个聚类的统一表示，并且在聚类空间中使用多项式形式的概率模型，并且用EM算法找到组合分区对应最大似然问题的解决方案，另外使用广义交互信息定义了一个与经典的类内方差标准相关的新的共识函数。最后，验证了了使用数据投影和随机数据分割的弱聚类算法生成的组合分区的效果。Ana L.N. Fred等人同样于2005年提出了针对聚类集成问题的一个解决方案，即证据累积（EAC）。Zhou Z H,Tang W等人于2005年提出了无监督聚类集成的理论，利用k-means算法训练集成的分类器，并用四种方法并行。Natthakan Iam-On等人于2011年提出一种新的基于链接的方法来改进传统矩阵，其中使用从集合的链路网络模型估计的集群之间的相似性。Elaheh Rashedi于2013年介绍了一种新的基于增强的分层聚类器集成方法，称为Bob-Hic，该方法用于创建共识分层在数据集上进行聚类。Elaheh Rashedi等于2015年提出了一种结合各种层次聚类结果的框架保留输入层次结构的结构内容。在这种方法中，首先是描述矩阵为每个层次结构创建，然后汇总输入层次结构的描述矩阵形成共识矩阵，从中得出最终层次结构。Dong Huang等于2016年提出了基于集成驱动的聚类不确定性估计和局部加权策略的集成聚类方法。2018年，张恒山等提出利用群体智慧原理, 将多个相互独立的聚类算法的结果进行聚合, 将显著提高聚类结果的准确性基于群体智慧的簇连接聚类集成算法,首先使用群体智慧理论的独立性、分散性、多样性原则引导个体聚类结果的生成,然后提出基于连接三元组的聚类集成算法对个体聚类结果进行分组聚合,将分组聚合的结果再次进行聚合得到最终的聚类结果。2018年，Yun Yang等提出了一种新的双加权集合，以解决所有基于HMM的聚类技术及其应用所遇到的初始化和自动模型选择问题。另外，Tuo Sh等提出了一种基于灰色关联分析的聚类集成算法。通过构建灰度链接矩阵，可以连接数据对象与所有聚类之间的关系，从而可以集成基本聚类结果。之后，通过最终划分矩阵，使用适当的共识函数来获得集成的聚类结果。

{title}

2. 研究的基本内容与方案

{title}

2 研究方向概况

2.1 研究基本内容

基于上述文献的研究，探索非监督性聚类集成算法的可行方案。首先，研究学习经典的聚类算法，对数据集利用经典的聚类算法进行聚类分析，了解相关算法的特性；其次，将相关论文提到的算法进行复现工作，测试其相关的性能以及对相关结果进行比较。最后，根据上述的实验结果，探索出一种评价度量，生成方略以及共识函数，得到共识度量。进而得到一种效率高，鲁棒性好，拓展性强的无监督聚类集成算法。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码