基于频繁模式挖掘的离群点检测方法开题报告
2022-01-18 22:00:36
全文总字数:2142字
1. 研究目的与意义及国内外研究现状
数据挖掘面临的众多任务中,离群点检测是其中一个存在时间非常长的一类任务。对离群点产生原因的探究是保障各式各样的系统运转正常,保障各种数据分析过程有条不紊,保障结果准确的重要方法。自上个世纪以来,种种基于统计学的,基于神经网络的,基于机器学习理论的离群点检测方法相继被提出并获得了成功的应用。然而,现实世界所面临的数据挖掘任务要求之严苛,数据来源之复杂,应用领域之广泛,种种因素使得对于离群点检测方法的更新十分必要。结合新的思路,突破传统,设计一款符合相关要求并节省资源,提高效率的离群点检测算法具有重大意义。本次毕业设计的目的就是在分析已有常用离群点检测算法的基础上,结合频繁模式挖掘的特点,试图寻找一种基于频繁模式挖掘的离群点检测方法。
国内外研究现状
离群点研究,作为一项数据挖掘任务,旨在找出噪声点或发现潜在有意义知识。最近,国内外在离群点检测方面有一定的研究。
国内离群点检测方法的研究已经涉及众多工业类别,并已经开始深入基础研究。目前国内的离群点检测研究多与某个行业紧密联系,在应用方面近些年不断出现新的成果。
2. 研究的基本内容
本次设计,在研究几种常见离群点检测算法的基础上,结合频繁模式挖掘,尝试利用频繁模式改进现有的离群点检测算法,以使其满足新的挖掘任务要求。针对频繁模式挖掘可以带来的对数据集数据分布的新的认识,结合关联规则挖掘,可在一般基于密度或距离的方法无法有效应对的高维数据集中获得更多发现。同时,进一步刷新对于离群点的认知。对于“任何偏移数据集中其它数据点太多以至于引起对于其生成机制与数据集中其它点不同的怀疑”这一离群点的经典定义获得新的理解。应用频繁模式可以在高维数据集中以另一种方式看待合群与离群。
本次研究主要关心利用数据记录中的频繁模式定义其离群程度的方法。期望能够利用频繁模式挖掘提高高维数据集中挖掘离群点的精确性或改进使用成本。对于计算资源利用方面,鉴于此前对于高维数据集中离群点挖掘的算法的效率往往表现不佳,并且改进难度较高,本次研究中不做深入改进。
3. 实施方案、进度安排及预期效果
1.2018年12月——2019年2月 对相关知识的学习和巩固
2.2019年2月——2019年3月 设计实验,测试各种离群点检测算法
3.2019年3月——2019年4月 分析实验结果,提出改进方案
4. 参考文献
1. victoria j.hodge, jim austin. a survey of outlier detection methodologies. university of york, 2004.1.
2. 王茜,唐锐.基于频繁模式的离群点挖掘在入侵检测中的应用. 计算机研究应用,2013.4.
3. 王振洲.离群点检测算法研究及其在机器学习中的应用. 中国地质大学,2018.5.