基于距离度量的特征选择方法及应用开题报告
2022-01-14 21:17:56
全文总字数:9177字
1. 研究目的与意义及国内外研究现状
人类在面对一件事物进行判断的时候,往往是根据以往的经验而不是当即想出来的信息去判断它的,就像当要判断一辆汽车的牌子的时候,人们会去看车头车尾的标志,更细致一点会去看车门上面的铭牌,因为这是最合适,也是最容易判断车辆品牌的信息的方法。而如果去通过它的外形去判断车牌,相信也没有多少人能够判断准确。也就是说,人类总是会去筛选出最重要也最有效的信息来做出最合适的判断。类似的,在人工智能领域,要想让计算机学习模仿人类的行为去判断一件事物的时候,也就需要有一个评判准则来定义它了,尤其是在面对医疗患者dna序列的筛选或者人脸数据集等大数据的时候。但是,在目前的机器学习的实际应用中,计算机在面对上述的问题的时候无法像人类一样去根据已有的经验选择最有效的信息。那么这个时候,我们就迫切需要有一个能够筛选特征信息的算法来解决这样的问题。因此,我们引入了特征选择算法,一种人工智能领域的关键技术算法。
特征选择选择在人工智能领域中的模式识别扮演着一个极其重要的角色。拥有一个好的学习样本是能提高一个学习算法训练分类器的关键。当然,样本中的冗余或不相关的信息也是能直接得影响分类器的性能。目前我们发现了两方面的问题:一方面是因为特征和分类器之间的性能是不存在线性关系的,所以,一旦特征的数量超过一定的比例时,就会导致分类器的性能降低;另一方面,在样本数量极其有限的情况下,用大量的特征来设计分类器无论是在计算的开销上还是分类器的性能上来看都是不合适的。因此,如何有效正确地解决上述的情况显得尤为重要。到现在为止,国外有很多的学者专家对这样的问题进行了研究,也提出了很多的算法和论文;但是,国内的研究还只是停留在用实验的方式来比较选取特征上面,所以,进行算法的改进是有必要的。并且,众多的特征选择算法对解决不同的实际问题往往有着不一样的结果,因此,如何针对特定的问题给出相对应的有效的解决方法仍是一个需要进一步解决的问题。
国内外研究现状
这一技术的研究最早开始于上世纪60年代左右,它的主要目的是用来解决信号的处理和统计学等相关的问题。在早期的研究中,受到当时的技术条件的制约,所能够进行的研究方向非常单一化。而且,研究的数据中涉及到的特征数目较少,并且科研者们假定的情况是各个特征之间是相互独立的,以此来通过对单个特征的评价来完成特征的选择,最终将特征进行组合来形成最优特征子集。这样的结果放到现在的研究当中显然已经是不合适的了。而且在实际的应用中,由于没有考虑特征与分类以及特征与特征之间的相互关系,特征选择算法在早期的研究结果中并不令人满意,所以科学家们在后来的研究当中对这一方面做出了很大的改进。
2. 研究的基本内容
针对原始数据集中的冗余特征和无关特征,如果不进行适当的改进,会给实验的结果带来灾难性的后果。所以为了更好地提高实验的质量和效率,本文引入了特征选择这个概念,并且做了以下的研究。
(1)通过特征选择的基本概念与背景来了解该算法的原理,并分析特征选择算法的优缺点。接着探讨特征选择算法的评价准则,根据实验对比得出距离度量这一评价准则作为本文研究的重点。
(2)了解特征选择算法的基本概念和框架以及典型的特征选择搜索策略。引出一种混合搜索策略,为了折中性能和时间复杂度之间的矛盾。由于基于距离度量的relief特征选择算法仅能处理二维数据,本文首先探讨了relief的优化算法relief-f。该算法可以处理多类别问题和目标属性为连续值的回归问题。然后,针对relief-f算法无法取出数据冗余特征的问题,又引入了k-means聚类算法来去除冗余特征。
3. 实施方案、进度安排及预期效果
2018年12月27日至2019年1月13日:论文定题,论文导师下达任务书;
2019年1月14日至2019年2月3日:查阅相关的文献和期刊,确定研究方法和内容并且提交任务书;
2019年2月10日至2019年2月23日:开题并且撰写论文提纲,完成开题报告的撰写并学习论文算法;
4. 参考文献
[1] c. m. bishop, pattern recognition andmachine learning: springer, 2006.
[2] y. bengio, and m. monperrus, 'non-localmanifold tangent learning.' pp. 129-136.
[3] e. keogh, k. chakrabarti, m. pazzani, and s.mehrotra, “locally adaptive dimensionality reduction for indexing large timeseries databases,” acm sigmod record, vol. 30, no. 2, pp. 151-162, 2001.