基于一致性度量的特征选择方法开题报告
2022-01-09 22:05:54
全文总字数:3179字
1. 研究目的与意义及国内外研究现状
随着数据获取和存储技术的发展,数据挖掘领域的数据集朝着大规模、高纬度的方向发展,虽然大规模高纬度数据提供了越来越丰富的信息,但是,与此同时在大规模的数据集上建立有效的预测模型越来越困难。因此,特征提取和特征选择等降维技术得到了广泛的应用。特征选择是在数据挖掘和模式识别中数据预处理的重要方法之一。原始数据中通常存在着不相关或冗余的特征,特征选择能剔除不相关或亢余的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的。另一方面,选取出真正相关的特征简化了模型,使研究人员易于理解数据产生的过程。过滤式评价策略的特征选择方法一般使用评价准则来增强特征与类的相关性, 削减特征之间的相关性。一致性度量是特征选择中重要的度量方法。随着计算机科学与技术的高速发展,众所周知,计算科学的思想与技术已经应用于我们生活的方方面面,科技水平的发展,使各个领域都能将人类社会的信息转化为能够被计算机识别的信息,信息的转化及运算过程中,积累了大量的信息数据。据研究表明,仅仅2010年,全球就产生了1.2泽它(zetta)字节数字信息,这是美国一家国际数据公司名为“数据世界”的项目调查结果,由此可见,“数据洪水”的泛滥之势越来越猛烈。这些数据不仅信息量庞大,而且数据维数非常高,特征属性的数量也非常高。这些大量的甚至海量的数据集中存在大量的冗余和噪音数据,人们已经不能通过直观的经验从大量的数据信息中提取出有用的数据信息知识。大规模数据所带来的问题主要体现在两个方面:一方面是指它所包含样本的数量庞大,而且类别分布不均衡;另一方面是指描述样本的特征维度非常高,且存在大量冗余和不相关属性,机器学习的重要性由此可见。机器学习可以将海量的数据进行信息的特征提取,解释数据之间的特征关系,它是人工智能的核心,是使计算机能够智能的应用于人类社会的各个领域的根本途径。
对于机器学习,一个重要的问题就是一个学习任务,能够选择一组具有代表性特征,用来构建模型。特征选择就是从原始特征集合中选择一组具有代表性的特征子集,来降低特征空间维数,对机器学习中的许多问题都具有重大意义。
特征选择是机器学习领域中的一项重要技术,对于模式识别和数据挖掘等具有重大意义。人工智能、信息化技术、计算机科学的高速发展和广泛应用,使模式识别技术在人们的生活中占据越来越大的比例,例如:越来越多的带有指纹识别功能的智能手机、安全系统应用中的人脸识别技术、保险箱设计中的瞳孔识别技术等诸多领域。在模式识别系统中,一个好的学习样本是分类器的关键,是否含有不相关或冗余信息直接影响着分类器的性能。而大量的研究调查表明,特征选择可以通过剔除不相关特征和冗余特征来提高分类器的性能,进而降低数据存储和处理成本。特征选择是在不改变每一个特征本身的物理意义的情况下,选择出与类别相关性强、同时选择出特征彼此间相关性弱的特征子集,由此来达到精简原始数据集、提高学习算法性能、减少系统运行时间的目的。这个目的可以通过研究样本的分布特性,定义合适子集搜索策略和评价函数,选取一个最优的特征子集替代原始特征空间来实现。因此有一种特征选择的定义为从原始特征集中选择某种评估标准使能够得到最优的特征子集。
2. 研究的基本内容
1、阐述特征选择的目的及背景 本部分将阐述随着信息科技的发展,计算科学的思想与技术已经应用于我们生活的方方面面,使各个领域都能将人类社会的信息转化为能够被计算机识别的信息,信息的转化及运算过程中,积累了大量的信息数据。
这些大规模数据中有着大量的不相关和冗余特征,特征选择可以选择出有效的特征,提高了分类的性能。
本部分将会具体阐述特征选择的目的和背景。
3. 实施方案、进度安排及预期效果
- 2018年1月14日前:撰写开题报告并在系统中提交,指导教师审核,完成开题。
- 寒假期间:进行算法的研究,能够有可执行算法,并清楚算法的意义
- 2018年4月30日前:查阅文献,在老师的指导下,在系统中完成外文翻译、论文初稿。
4. 参考文献
[1]冯宗翰. 特征选择新算法研究[D].江南大学,2011. [2]陈堃,李心科.基于一致性度量的属性约简的研究[J].计算机技术与发展,2008(10):64-67.[3]苏映雪. 特征选择算法研究[D].国防科学技术大学,2006.[4]张丽新. 高维数据的特征选择及基于特征选择的集成学习研究[D].清华大学,2004.[5]姜百宁. 机器学习中的特征选择算法研究[D].中国海洋大学,2009. [6]孙鑫. 机器学习中特征选问题研究[D].吉林大学,2013.[7]张钧波. 面向大数据的高效特征选择与学习算法研究[D].西南交通大学,2015. [8]张靖. 面向高维小样本数据的分类特征选择算法研究[D].合肥工业大学,2014. [9]姚旭,王晓丹,张玉玺,权文.特征选择方法综述[J].控制与决策,2012,27(02):161-166 192. [10]潘锋. 特征提取与特征选择技术研究[D].南京航空航天大学,2011. [11]黄东山. 特征选择及半监督分类方法研究[D].华中科技大学,2011. [12]李敏,卡米力木依丁.特征选择方法与算法的研究[J].计算机技术与发展,2013,23(12):16-21. [13]毛勇. 基于支持向量机的特征选择方法的研究与应用[D].浙江大学,2006.