大数据处理中实时频繁项集模式挖掘技术研究开题报告
2021-12-18 21:15:23
全文总字数:1857字
1. 研究目的与意义及国内外研究现状
随着大规模网络通信技术的发展,社会各行各业也都得到了极大的促进和发展。由此也诞生出了许多大数据处理方面的需求。但由于各种网络规模的迅速发展和扩大,其需要处理的数据量规模和数据类型复杂度也在不断增大,同时由于特定的应用环境,很多应用需求常需要大数据处理能给出实时性的响应和分析结果。因此,由于大数据的海量数据规模以及自身所天然带有的数据异构性和种类繁多性,使得希望采用通用而且实时响应的通用型大数据处理在技术上较难得到满足和实现。
当前主要可应用于大数据处理的通用型数据挖掘技术主要集中在能够有效结合关联性规则技术的频繁项集模式挖掘技术上。该技术发展矛盾则主要在于如何有效解决大数据处理的高效需求和频繁项集模式挖掘自身算法复杂度偏高这两者之间。目前,现有的频繁项集模式挖掘主要包括一般频繁项集挖掘、闭频繁项集模式挖掘以及最大频繁项集模式挖掘。这三种模式挖掘的计算复杂度逐渐降低,但其相应挖掘出的频繁模式所可能携带的模式信息量也相应降低。
如何在保证满足大数据处理基本需求的条件下,选择或改进更为高效的频繁项集模式挖掘算法来最终实现各种大数据应用已成为当前该领域研究的一个热点。因此,本课题的研究具有很好的理论研究价值和广阔的实际应用潜力。
2. 研究的基本内容
本文的主要研究内容有:
(1)掌握序列模式挖掘、流数据挖掘技术以及其它相关必要的数据挖掘技术。
(2)对满足需求的选中具体频繁项集模式挖掘算法提出改进方案,并分析安全性,效率以及相关的优劣性等。
3. 实施方案、进度安排及预期效果
2015年11月-12月:资料收集,完成任务书和开题报告,完成相关数据挖掘技术知识的阅读理解;2016年1月-2月:指导教师提供几篇代表性文献,对其进行精读并研究分析;
2016年3月-5月:对满足需求的选中具体频繁项集模式挖掘算法提出改进方案,并分析安全性,效率以及相关的优劣性等;
2016年5月:撰写毕业论文。
4. 参考文献
[1] jiawei han,micheline kamber,jian pei著.《data mining concepts and techniques third edition》.morgan kaufmann publishers.2011
[2] 常龙.数据流频繁模式挖掘算法的研究与实现[d].吉林大学.2013
[3] 吴毛毛.数据流频繁模式挖掘算法的研究[d]. 江西理工大学.2013