聚类分析在危险性作业事故分析中的应用文献综述
2020-05-15 21:52:19
一、选题相关概念及定义
聚类分析( Cluster Analysis) 又称群分析,是根据”物以类聚”的道理,对指定样品或指标进行分类的一种多元统计分析方法[1]。从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等[2];从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习[3]。
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论[4]。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析[5]。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
”危险性作业”这个词,出自国家安监总局2012年8月7日发布的《危险化学品企业事故隐患排查治理实施导则》中。该《导则》4.1.6(3)规定:动火作业、进入受限空间作业、破土作业、临时用电作业、高处作业、断路作业、吊装作业、设备检修作业和抽堵盲板作业等为危险性作业[6]。
二、选题背景
随着改革开放和现代化建设的迅猛发展,我国的经济势头良好,企业的安全生产摆到了国计民生的重要位置,安全生产与社会稳定直接相关,要加强对企业安全生产宣传、培训、奖惩、事故预防等方面工作,确保企业安全生产[7]。安全生产是涉及职工生命安全的大事,也关系到企业的生存发展和稳定[8]。”安全第一,预防为主,综合治理”是关系到国家经济发展与社会稳定的安全方针,安全是职工生存的最基本需要之一,没有安全就没有职工的生活和生产[9]。
本课题主要围绕聚类分析在危险性作业事故中的应用展开讨论与研究,目前关于危险性作业事故的相关数据分析较少,因此选择这一角度进行研究可以为危险性作业的应急管理提供必要的科学依据,提高安全生产水平[10]。
三、聚类分析步骤及数学原理
1、主要步骤:
①数据预处理#8212;#8212;选择数量,类型和特征的标度((依据特征选择和抽取)特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免”维数灾”进行聚类)和将孤立点移出数据(孤立点是不依附于一般数据行为或模型的数据)