基于神经决策森林的数据挖掘与分类开题报告

2020-05-02 17:11:51

1. 研究目的与意义（文献综述）

l 研究目的

当代人生活在一个信息化的时代，周围充斥着各种各样的信息化的机器芋随着计算机科技的高速发展，信息量的存储越来越大。二十多年来，我们就像迷失在数据的森林里，总也找不到出口。信息量的剧增给人们的生活带来了便利的同时，也带来了各种不可避免的麻烦：首先，信息太多，不能够很好的被人们所利用；其次，人们很难确定信息的真实性；另外，越来越多的间谍开始出现，他们会觊觎我们的信息，使我们的信息变得不安全；最后，信息有多种多样的表现形式，所以我们难以对其进行统一处理。因此，如何高效地并合理地利用数据中所隐藏的有价值信息，成为了研究者所关注的课题，他们希望通过研究为决策者提供更好的决策依据，创造更多的财富。随着计算机技术的发展、成本的下降、以及数据管理技术被越来越多的运用，企业或事业单位的各个部门之间联系越来越紧密，信息化的程度也越来越高，这样就导致了大量的数据累积。决策者在面对海量的数据时，难以直接快速地从中提取出对其有价值的知识，这也从侧面推动了各种数据分析工具的研究。通过利用数据分析类型的工具，我们能够获得一些有价值的知识与信息，而所获内容又能够被广泛应用于其他各种领域。人工神经网络(artificial neural network)的发展经历了一个曲折的过程。其发展过程大体可以分为五个时期：1943年～1969年是第一个热潮期；1969年～1982年是相对低潮期；1982年～1987年第二个热潮的开始；1987年～二十世纪九十年代后期是第二个热潮期；二十一世纪至今，进入持续发展阶段。人工神经网络最早的研究可以追溯到十七世纪的弗洛伊德(frued)时期，他的神经分析学对神经系统已经有了基本的研究。1943年，美国数学家pitts与神经心理学家mcculloch共同发表了一篇具有前瞻性的论文，他们首次提出了神经元的概念，并提出了著名的神经网络模型，被称为m．p模型。1949年，心理学家d．o．hebb提出了著名的“hebb学习规则(神经元之间突触联系强度可变的假设)”，该规则现在仍被多数学习机所遵守。1958年，frank rosenblatt提出了感知机(perceptron)的概念，它被认为是最早的神经网络模型。1959年，widrow和hoff开发出一种被称为自适应线性原件(adaline)的网络模型，其算法被称为widrow—hoff算法。1987年，首届国际神经网络大会在美国san diego召开，会上成立了国际神经网络协会(intemational neural network society，inns)。之后，各种神经网络会议相继召丌，神经网络的新高潮已经形成。1995年以后，

神经网络进入了稳定持续的发展时期，并持续取得了很多研究成果，比较著名的比如xu(1997，1998，2003，2004)提出的ying．yang机理论。目前，已经出现了很多种人工神经网络模型，可以从多个角度进行分类。根据人工神经网络的拓扑结构，可以分为：前馈型神经网络和反馈型神经网络；根据人工神经网络的性能可以分为：确定型、随机型、连续型、离散型神经网络；根据人工神经网络的学习方式还可以被分为：有导师学习和无导师学习两种。

目前，数据挖掘技术应用面很广，在金融、电信、零售、气象、能源、电子商务等许多行业，都已经有了比较成功的案例：

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

神经网络和决策树是人工智能和机器学习中最常用的两类数据挖掘算法。神经网络模拟人脑神经元的工作原理，通过“学习”，能够自适应地挖掘出数据中隐含的非线性关系，然而“黑箱结构”使得其可解释性差，即使是神经网络的设计人员也难以解释其工作机理。相反，决策树算法对数据特征进行分层次挖掘，可解释性强。项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是一个预测模型，他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。分类树（决策树）是一种十分常用的分类方法。他是一种监管学习，所谓监管学习就是给定一堆样本，每个样本都有一组属性和一个类别，这些类别是事先确定的，那么通过学习得到一个分类器，这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。从数据产生决策树的机器学习技术叫做决策树学习,通俗说就是决策树。一个决策树包含三种类型的节点：决策节点：通常用矩形框来表示。机会节点：通常用圆圈来表示。终结点：通常用三角形来表示决策树学习也是资料探勘中一个普通的方法。在这里，每个决策树都表述了一种树型结构，它由它的分支来对该类型的对象依靠属性进行分类。每个决策树可以依靠对源数据库的分割进行数据测试。这个过程可以递归式的对树进行修剪。当不能再进行分割或一个单独的类可以被应用于某一分支时，递归过程就完成了。另外，随机森林分类器将许多决策树结合起来以提升分类的正确率。决策树同时也可以依靠计算条件概率来构造。同时，在数据挖掘中，决策树算法的结构能够天然地处理非数值特征，从而减少人工数值化带来的误差，而以多个决策树构建的决策森林能够进一步提高模型的泛化能力。同时，在数据挖掘中，决策树算法的结构能够天然地处理非数值特征，从而减少人工数值化带来的误差，而以多个决策树构建的决策森林能够进一步提高模型的泛化能力。目前数据挖掘逐渐从高端的研究转向常用的数据分析，在国外像金融业、零售业等这样一些对数据分析需求比较大的领域已经成功地采用了数据挖掘技术来辅助决策。尽管如此，数据挖掘技术仍然面临着许多问题和挑战，如超大规模数据集中的数据挖掘效率有待提高，开发适应于多数据类型、容噪的挖掘方法，网络与分布式环境下的数据挖掘，动态数据和知识的数据挖掘等。

本课题的主要研究内容包括几个方面：1、多平面近似支持向量机的概念、特性及数学模型的研究；2、斜决策树的学习与研究；3、集成算法及决策森林（随机森林，旋转森林）的学习与研究；4、基于多平面近似支持向量机的斜决策树集成的数据挖掘与分类。主要目标是是综合神经网络和决策树，取其各自优点，在决策树的每个中间节点中嵌入一个神经网络构建的分类超平面，形成神经决策树，进一步构建神经决策森林，并实现对多个UCI数据集及图像数据集的挖掘和分类。

3. 研究计划与安排

1-2周，完成开题报告和文献翻译，完成开题答辩；

3-4周，学习神经网络的概念、特性及数学模型；

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

4. 参考文献（12篇以上）

l 焦李成，刘芳等．智能数据挖掘与知识发现[m]．西安：西安电子科技大学出版社，2006．

l 王颖．基于神经网络的数据挖掘方法的研究和应用[d]．中国地质大学(北京)，2012．

l 张龙等．数据挖掘技术及其应用[j]．甘肃科技，2007，23(1 1)：58—65．

l manwani n , sastry ps, “geometric decision tree,” ieee transactions on systems, man, and cybernetics, part b (cybernetics) volume: 42, issue: 1, feb. 2012.

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码