基于粗糙集属性约简的多分类器集成系统研究文献综述
2020-05-25 23:42:56
分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即我们通常所说的分类器(Classifier)。传统的分类方法通常只能使用某种单一的特征描述和特定的一个分类器来进行分类。而不同的分类算法可能得到不同的分类性能,且没有一种分类算法能对所有的应用都取得较好的结果。因此同时使用多个分类器可能提高分类精确性,即多分类器集成就是通过融合大量的基分类器来获得更好的分类性能。集成学习是利用多个学习机来解决同一个问题的一种方法,其目的就是进一步提高学习系统的泛化能力。目前,除了上述线性组合方法外,非线性集成方法主要有粗糙集方法等。像周志华等人采用的遗传算法选择合适的分类器进行集成。
1.目的以及意义
选题的目的:为提高优化多分类器系统的性能,本文提出了一种多分类器集成方法MCS_ARS。该方法首先利用样本子空间和粗糙集子空间对训练集进行划分来构建差异性基分类器,然后构建分类器结果表,最后利用决策结果之间的相似关系进行多分类器集成。实验结果表明,相较于经典的集成方法,本文方法可以获得更高的分类准确率。
选题的意义:合理的基分类器的构建方法需要设计相应的特征子空间划分方法。粗糙集理论是一种新型的处理模糊和不确定知识的数学工具。在理论和应用上都取得了丰硕的成果,其核心应用就是利用粗糙集进行属性约简和特征选择。按照粗糙集的观点,属性的约简不仅能够降低属性维度以简化学习过程,,而且具有与原集合相同的识别和分类能力,不会损失分类或者学习的信息。因此,粗糙集理论是一种特征子空间划分的好方法。在许多实际应用中都利用粗糙集属性约简来构建分类器,以删除冗余属性,减小学习算法的计算量,降低存储空间,提高学习算法的性能。多分类器集成的另一个核心是如何组合所产生的基分类器以获得更高的分类精度。
2.国内外发展现状
到目前为止,对多分类器集成的研究成果有很多,主要集中在两个方面,一是基分类器的构建方法研究,二是基分类器的组合方法研究。其中,构建具有差异性的基分类器是多分类器集成的前提,也是研究的核心问题。对于该问题,常用的方法主要有以下三种:a)重采样法,即将样本分为多个相关或不相关的组分别训练;b)特征子空间划分法,即对特征空间进行划分,当特征向量中存在着许多高度相关的特征时,可以获得不同的特征向量子空间,在这些特征子空间上训练基分类器;c)分类器训练参数或者分类器结构改变法。目前最常用的方法是利用重采样技术从训练集中选择样本生成多个子集,以此为基础构造分类器进行集成,诸如boosting方法、Bagging方法等,给正确率高的分类器分配更高的权值,这仅考虑了训练集中的可用信息,并没有利用各个基分类器输出结果的关系,这样就造成了信息损失,导致分类精度下降,还存在下面三个缺点:1)样本的空间分布情况在选择样本时没有考虑到,因而具有很强的随机性和盲目性。一旦样本选择的不合适,集成分类器的性能将会急剧下降。2)个体分类器的差异性越大,集成分类器性能就越好的条件不能得到有效保证。3)在实际应用中个体分类器的训练子集为了能较好的反映真实样本的分布,一般来讲都需要包含尽可能多的样本,然而这会直接导致算法的时间需求和空间需求的增大;对于第二个问题,亦称之为结论生成方法或组合基模型方法,最基本的方法就是多数投票法,如果分类器以概率值的形式输出,则简单平均方法与加权平均方法也是有效的组合方法。然而传统的基分类器构建一般采用单一的训练集划分法或者属性子空间划分法,这些方法所产生的基分类器差异性不高。然而,个体差异性越大,集成分类器性能越好。
粗糙集属性约简主要集中在最优,再用启发式信息、并行算法技术、导出规则的增量式算法等来简化或者优化算法。这逐渐成为人们研究的热点。在应用方面,粗糙集理论方法现已成为数据挖掘的一种重要方法,如在模式识别中可用特征选取;在医疗中用来诊断新的病例等各方面都得以广泛应用。
3.课题研究内容
粗糙集:
波兰数学家Z.Pawlak为开发自动规则生成系统及研究软计算问题而提出了粗糙集。粗糙集理论将知识理解为对象数据的划分,每一个被划分的集合称为概念。它的主要思想是利用已知的知识库,将不精确或不确定的知识用已知的知识库中的知识来近似刻画。该理论与其他处理不确定和不精确问题理论最显著的区别就是:它无需提供处理问题所需要的数据集合之外的任何先验信息,所以对问题的不确定性的描述或处理可以说是比较客观的,由于这个理论未能包含处理不精确或不确定原始数据的机制,所以这个理论与概率论、模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。