低质量样本数据预处理系统设计文献综述
2020-03-27 11:26:04
文 献 综 述
1.课题背景及意义
数据预处理(data preprocessing)[5]是指在主要的处理以前对数据进行的一些处理。如对大部分地球物理面积性观测数据在进行转换或增强处理之前,首先将不规则分布的测网经过插值转换为规则网的处理,以利于计算机的运算。另外,对于一些剖面测量数据,如地震资料预处理有垂直叠加、重排、加道头、编辑、重新取样、多路编辑等。
数据预处理是数据挖掘(data mining)的重要一环, 而且必不可少。要使挖掘内核更有效地挖掘出知识, 就必须为它提供干净、准确、简洁的数据。然而实际应用系统中收集到的原始数据是低质量的, 通常存在以下几方面的问题【4】:
1)杂乱性。原始数据是从各个实际应用系统中获取的( 多种数据库、多种文件系统) , 由于各应用系统的数据缺乏统一标准和定义, 数据结构也有较大的差异. 因此各系统间的数据存在较大的不一致性, 共享问题严重, 往往不能直接拿来使用。
2)重复性。是指对于同一个客观事物在数据库中存在其两个或两个以上完全相同的物理描述。由于应用系统实际使用中存在的一些问题, 几乎所有应用系统中都存在数据的重复和信息的冗余现象。
3)不完整性。由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成的影响, 数据记录中可能会出现有些数据属性的值丢失或不确定的情况,还可能缺少必需的数据而造成数据不完整。实际使用的系统中, 存在大量的模糊信息, 有些数据甚至还具有一定的随机性质。
一个完整的数据挖掘系统必须包含数据预处理模块。它以发现任务作为目标, 以领域知识作为指导, 用全新的” 业务模型” , 来组织原来的业务数据, 摈弃一些与挖掘目标不相关的属性, 为数据挖掘内核算法提供干净、准确、更有针对性的数据, 从而减少挖掘内核的数据处理量, 提高了挖掘效率, 提高了知识发现的起点和知识的准确度。
意义通过数据预处理工作,可以使残缺的数据完整,将错误的数据纠正,将多余的数据去除,将所需的数据挑选出来并且进行数据集成,将不适应的数据格式转换为所要求的格式,还可以消除多余的数据属性,从而达到数据类型相同化、数据格式一致化、数据信息精练化和数据存储集中化。总而言之, 经过预处理之后,我们不仅可以得到挖掘系统所要求的数据集,使数据挖掘成为可能;而且,还可以尽量地减少挖掘系统所付出的代价和提高挖掘出的知识的有效性与可理解性。
2.国内外研究的技术现状【3】