基于数据分布的分类器的设计和实现开题报告
2022-01-08 22:20:51
全文总字数:3869字
1. 研究目的与意义及国内外研究现状
数据分布是模式分类的核心议题,若数据的分布已知,目前贝叶斯网络可以达到很好的分类效果。由于对已知的数据分布的认识有限,面对现实世界各种复杂的分布,只能通过已知的分布或者数理统计的方法去近似未知复杂的分布,但是在理论上,这种可以近似的情况并不是很多,这大大限制了贝叶斯网络的应用。对于传统的bp分类算法,其设计中绝大部分都没有遵循数据分布的原则思想。比如,在网络结构上,为了寻求问题的解,随意增减隐层神经元个数或网络的层数,对原始数据空间进行映射。这种神经元或网络层的增减,自然会对问题空间中数据的分布造成影响,更多时候表现为破坏数据的原本分布,虽然达到了良好的学习性能,但在泛化性能上均表现不佳。在空间映射时保持数据原来的分布是一个重要原则,比如svm很好的遵从了数据的分布,在数据线性可分的情况下,svm可以生成一个合理的超平面,但是对于线性不可分的情况,通过核函数的的方法进行映射,同样会改变原来的数据分布情况。再比如cnn,在图像识别的过程中,保留了图像的位置信息,这从侧面依然遵从着数据的分布,这也是它在图像识别领域可以发挥良好效果的重要方面。那么既然数据分布在数学意义上的理解和表示有限,而数据分布对于模式分类又十分重要,所以本文从空间角度考虑数据的分布,试图用单点感知数据的空间分布,利用数据在空间中分布的特点,对数据复杂的空间分布进行区域描述,基于数据的空间分布去构建分类模型。在遵从数据原始分布的前提下,保证良好的学习性能和泛化性能。
国内外研究现状
机器学习,就是让机器具有对数据或事物规律的学习和分析能力。对已知知识的学习体现了机器的学习能力,对未知事物的分析能力则体现了机器的泛化能力。所以,学习能力和泛化能力是机器智能化的不同体现。它是人工智能领域的一个重要方面,也是学者和专家广泛研究的议题。
机器学习经历几十年的发展,产生了各种各样的针对不同问题的方法,那么对于模式分类方面,就涌现出许多经典的算法,比如bp网络、决策树、svm、贝叶斯网络以及当前的cnn和gan等。
2. 研究的基本内容
1、研究目的
本文针对模式分类问题,通过对现有分类算法的分析,提出了数据分布是模式分类的核心问题的论述,并且基于数据的分布提出了一种新的分类方法,该方法从空间角度考虑数据的分布,试图用单点感知数据的空间分布,利用数据在空间中分布的特点,对数据复杂的空间分布进行区域描述,基于数据的空间分布去构建分类模型。在遵从数据原始分布的前提下,保证良好的学习性能和泛化性能。
2、算法设计思路
3. 实施方案、进度安排及预期效果
1、实施方案
1.1、查阅相关文献,研究和分析国内外的现状
1.2、撰写论文的综述报告
4. 参考文献
[1]c.cortes,v.vapnik.support vector network.dblp, september1995
[2]goldszmidt,moises.bayesiannetwork classifiers.machine learning,1997,
29(2-3):131-163