频繁闭项集挖掘算法的设计与实现开题报告
2022-01-16 20:14:44
全文总字数:2884字
1. 研究目的与意义及国内外研究现状
频繁项集的挖掘是数据挖掘研究中的一个重要内容,在关联规则、序贯模式等方面有着广泛的应用。在大型数据库的挖掘中常常产生大量的频繁项集,存储起来十分不便,因此,闭频繁项集的概念应运而生。相比挖掘出的频繁项集,闭频繁项集不仅可以包含频繁项集的完整信息,而且比频繁项集少了几个数量级。
大数据技术的发展是对互联网 和物联网的进一步发展具有十分重要的促进作用。本项目设计主要采用c、java等相关技术,结合大数据处理技术在实时性和高效性处理方面的具体应用需求,设计或改进实现一个实时、高效的闭频繁项模式挖掘算法。
国内外研究现状
国外研究现状:1993年,agrawal在进行大数据分析时开创性地提出了关联规则的挖掘,并且设计了apriori算法,其核心性质是所有fi的子集也必定是fi。为了减小搜索空间,pasquier等提出了频繁闭项集的概念,并提出了close算法,为了完善close算法的一些性能缺陷,他们又在一年之后发表了a-close算法。。2000年,h. jia wei等人为了解决apriori算法存在的多次扫描数据库的缺陷,设计了一种fp-growth算法,该算法不需要使用剪枝策略对候选进行化简,通过fp-tree直接生成频繁项集。
2. 研究的基本内容
本文关于如何挖掘频繁闭项集,提出了一种算法,使用apriori算法挖掘出频繁项集,但并不直接保存频繁项集,将频繁项集作为中间数据,利用一些推论原理来简化频繁闭项集的筛选过程,使用简化后的方法从挖掘出的大量的频繁项集中,使用一定的筛选策略,获取所有的频繁闭项集,并将结果保存,以便于用于关联规则的挖掘。不同于很多算法以fp-tree这种数据结构来挖掘频繁闭项集,本文从一个比较基础的角度来挖掘频繁闭项集,所提出的的算法的性能可能低于那些优秀的算法,但是本算法因为基础,在针对一定数据量的数据集时有一定的性能优势。
3. 实施方案、进度安排及预期效果
本课题采用c、java等相关技术,结合大数据处理技术在实时性和高效性处理方面的具体应用需求,设计或改进实现一个实时、搞笑的闭频繁项挖掘算法。
目前本课题处于相关知识准备阶段,通过对数据挖掘算法相关书籍的深入性学习以及对闭频繁项挖掘算法相关论文的整理参考,理解闭频繁项挖掘算法的基本概念以及挖掘的具体步骤。
通过c或者java语言实现算法,可以直观的对算法进行性能分析,以直观的运行数据进行分析,有助于算法的改进优化。
4. 参考文献
1.宋威, 杨炳儒, 徐章艳, et al. 一种改进的频繁闭项集挖掘算法[j]. 计算机研究与发展, 2008, 45(2).
2.杨红菊, 梁吉业. 一种挖掘频繁项集和频繁闭包项集的算法[j]. 计算机工程与应用, 2004, 40(13).
3.陈光鹏, 杨育彬, 高阳, et al. 一种基于mapreduce的频繁闭项集挖掘算法[j]. 模式识别与人工智能, 2012, 25(2):220-224.