基于置信规则库（BRB）的鸢尾花分类研究毕业论文

2021-11-14 21:08:29

论文总字数：25903字

摘要

近年来，人们越来越重视算法的可解释性，置信规则库在各个领域得到越来越频繁地应用，但是大多都是利用置信规则库去解决回归问题，却很少去解决分类问题。因此置信规则库在分类问题方面的研究有着很好的前景。

鸢尾花分类问题是机器学习中一个十分经典的问题，它常常用于各种机器学习算法的研究。本文主要尝试使用python语言将基于证据推理算法的置信规则库推理方法(RIMER)应用于鸢尾花分类，主要工作包括获取鸢尾花数据集，对数据集进行预处理、选取训练样本和测试样本，确定合适的参考等级，置信规则表达，构建鸢尾花分类的模型并优化，利用ER算法进行推理，得到分类结果。

实验结果表明本算法得到的测试集分类结果与样本数据结果基本一致，验证了置信规则库在分类问题方面的可行性，同时还和其他机器学习算法进行比较，探讨了关于置信规则库的优劣势。

关键字：置信规则库 RIMER 鸢尾花分类 ER算法

Abstract

In recent years, people have paid more and more attention to the interpretability of algorithms,The belief rule-base is used more and more frequently in various fields. Most of them use confidence rules to solve regression problems, but rarely solve classification problems. Therefore, the research on the classification problem of the belief rule-base has very good prospects.

The iris classification problem has always been a very classic problem in machine learning, and it is often used in the research of various machine learning algorithms. This paper mainly attempts to use python language to apply the belief rule-base inference methodology using the evidential reasoning approach(RIMER) to iris classification. The main work includes obtaining the iris data set, preprocessing the data set, selecting training samples and test samples, determining the appropriate reference level, belief rule expression, constructing and optimizing the model of iris classification, reasoning with ER analysis algorithm,Get classification results.

The experimental results show that the classification results of the test set obtained by this algorithm are basically consistent with the sample data results, which verifies the feasibility of the belief rule-base in the classification problem. At the same time, it is compared with other machine learning algorithms, and discussed the advantages and disadvantages of the belief rule-base .

Key Words: belief rule-base,RIMER,Iris classification,ER algorithm

第1章绪论 1

1.1 研究目的及意义 1

1.2 国内外研究现状 1

1.3 本文主要内容 2

第2章总体设计 3

2.1 鸢尾花数据集特点分析 3

2.2 功能设计 3

2.3 开发工具选择 3

2.4 置信规则库在鸢尾花分类的方法的应用 4

2.4.1 基于传统IF-THEN规则的专家系统 4

2.4.2 鸢尾花分类规则表达中的权重参数 5

2.4.3 鸢尾花分类置信规则库 5

2.4.4 置信规则库矩阵表示 6

2.5 置信规则库的模型优化学习模型 7

2.6 算法运行流程 8

第3章系统具体实现 9

3.1 数据处理 9

3.1.1 数据预处理和特征提取 9

3.1.2 训练和测试样本选取 9

3.2 建立初始规则库 10

3.2.1 确定参考等级 10

3.2.2 欧氏距离计算 11

3.2.3 初始置信规则库 11

3.3 置信规则库推理 14

3.3.1 输入信息转化 14

3.3.2 置信规则激活权值计算 16

3.3.3 利用ER算法进行推理 16

3.4 模型优化 19

3.4.1 基于主观观测值的优化学习模型 19

3.4.2 在matlab中实现优化 19

第4章测试结果及分析 21

4.1 测试方案 21

4.2.1 采用不同的参考值进行测试 21

4.2.2 划分不同的训练集和测试集进行测试 24

4.2 测试结果分析 25

4.3 与其他鸢尾花分类机器学习算法的比较 25

4.3.1 BP算法实现鸢尾花分类 25

4.3.2 KNN算法实现鸢尾花分类 25

4.3.3 基于决策树实现鸢尾花分类 26

4.3.4 向量机SVM实现鸢尾花分类 26

4.3.5 不同方法结果的比较与分析 26

总结 28

参考文献 29

致谢 30

第1章绪论

1.1 研究目的及意义

如今信息社会不断产生各种新的大数据，各种各样的关于数据问题不断出现，而在实际中很多关于数据的问题都能转化为分类问题。鸢尾花是我们身边非常常见的一种花，因为鸢尾花的观赏价值极高，颜色鲜丽，花香浓郁，其药用价值也很高，鸢尾花数据集作为经典的分类算法研究使用的数据集可以很好地检测分类算法的效果，而传统的决策树、向量机、神经网络等算法方法对鸢尾花进行分类，存在精确度不够或者可解释性不高等问题。2017 年中国国务院在《新一代人工智能发展规划》中提出“实现具备高可解释性,强泛化能力的人工智能”，算法的可解释性也变得越来越重要。基于传统规则修改后的置信规则库（BRB）整个推理过程十分清晰而且可解释，引入置信规则后，可以处理多种类型的不确定性和随机性，推理的结果也十分可靠，凭借这些优势BRB已经在许多领域都有非常显著的效果，比如机械故障损伤预测、医疗病情分析等，但这些都是利用BRB去解决回归问题，在解决分类问题上用的还不够多，因此我们尝试利用BRB去解决鸢尾花分类问题，探讨关于BRB在分类问题上的应用。

1.2 国内外研究现状

作为在机器学习中一个非常经典的问题，鸢尾花分类问题很早就开始有人去研究。鸢尾花数据集是一类多重变量分析的数据集，鸢尾花有四个属性包括花萼长度，花萼宽度，花瓣长度，花瓣宽度，这些属性能够比较准确地表现出鸢尾花的三个种类的特性，因此围绕这四个属性来解决鸢尾花分类有很多种方法。目前解决鸢尾花分类大多都采用的是数据挖掘中传统的分类算法^[1]，比如利用K最近邻（KNN）分类算法，KNN算法是通过计算不同特征值之间的距离，找出k个与其最近的记录，根据记录的类别进行分类。基于决策树的鸢尾花分类是通过建立决策树模型，利用信息进行特征选择，然后反复递归最后得出鸢尾花的分类结果^[2]。BP神经网络方法是建立一个BP网络，使用数据样本训练该网络，可以采用sklearn中的程序包进行参数设置实现整个算法过程。贝叶斯分类方法是通过贝叶斯算法计算训练数据集每个种类的比例^[3]，在计算每个属性在数据集中的条件概率，最后求出最大后验概率并判断分类。以上说明通过数据挖掘的算法能够很好地解决鸢尾花分类问题。

而在对于置信规则库的研究方面，国内大多都用于机械故障预测的研究，比如王晓兵等人^[4]通过找出焊接机器人的伺服电机转矩信号特征与RV减速机曲柄轴的磨损状态之间存在的非线性对应关系，设计了基于置信规则库的焊接机器人磨损故障检测方法，起到了很好的效果。在社会关系中BRB也有了不少的应用，比如夏旻旻^[5]开发了一种BRB模型用于预测新产品中消费者偏好，作者通过从产品属性中提取少量因素并分析从而建立置信规则库，对产品的特征因素与消费者对产品的喜爱之间的因果关系进行建模，将产品属性的因子值作为输入预测消费者喜爱程度。对于BRB在分类问题方面的研究，方志坚等^[6]人根据现有证据推理的置信规则库分类算法基础上，提出了利用二择众仓决策的分类方法来改进之前置信规则库的决策系统，通过建立多个置信规则库来同时处理若干个子问题，然后通过众仓决策的方式融合子问题的结果来解决最终分类问题。刘莞玲^[7]等人在原有的分类模型上，利用差分进化算法建立分类的训练模型，大大提高了分类模型的效率。国外关于BRB的研究也不少，Aminravan团队就提出了一种新型的基于网络模糊置信规则的时空数据聚合方案，用于分配网络中的水质评估，他们针对网络不同的节点分为不同的层次，每个层次设计了NF-BRB系统，在系统中采用了寻找最优参数的学习算法，最终汇总各个层次的结果评估出水质等级。总得来说目前置信规则库大多应用于各种诊断和预测，对于分类问题的研究还不够多，而且大部分都是利用matlab实现，而python是目前机器学习的主流语言，用python实现置信规则库，有利于多种算法的混合编程。

1.3 本文主要内容

请支付后下载全文，论文总字数：25903字

您需要先支付 50元 才能查看全部内容！立即支付

注册

找回密码