样本缺失值填补算法研究文献综述

2020-03-27 11:25:49

研究的目的和意义

在各个领域的研究调查中,由于各种已知或者未知因素的影响,经常会导致数据缺损的情况出现。此时,由于残缺数据的存在,不仅会增加我们分析任务的难度,也会造成分析结果的偏差,从而降低统计工作的效率,因此如何考虑这些残缺数据的影响就变得及为重要了，为了有效地解决这个问题,本课题采用了一种处理方法,那就是将残缺的数据进行填补,形成完整的数据集。

缺失值在许多研究领域都很常见但又难以解决，比如人工智能，机器学习等研究领域。理想情况下，数据集中的每条记录都应该是完整的。然而，存在不完整的、含噪声的数据是大型的、现实世界数据集的共同特点。在各种实用的数据库中，数据缺失的情况经常发生甚至是不可避免的。造成数据缺失的原因也是多方面的，主要可能有下几种：

（1）有些信息暂时无法获取。例如在医疗数据库中，病人的所有临床检验结果不可能在给定的时间内得到，这样就致使一部分属性值空缺出来。又如在申请表数据中，对某些问题的反映依赖于对其他问题的回答。

（2）有些信息是被遗漏的。数据可能是因为输入时认为不重要、忘记填写或对数据理解错误而遗漏，也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失。

（3）有些对象的某个或某些属性是不可用的。也就是说，对于这个对象来说，该属性值是不存在的，如一个未婚者的配偶姓名、一个儿童的固定收入状况等。

（4）有些信息（被认为）是不重要的。如有些人认为自己的婚姻状况与所填的表格没有什么关系，又不想把自己的婚姻状况显示出来，就成了缺失值。

（5）获取这些信息的代价太大。例如，在做医疗诊断的时候，有些检查费用超过了患者的承受能力，没有经济能力进行测试，只能让这个属性的值空缺。

（6）系统实时性能要求较高，即要求得到这些信息前迅速做出判断或决策。例如，在向在校学生调查他们关于将来工作的目标或者职业选择的时候，他们可能没有时间去调查他们想选择的职业的情况而只能用缺失值来代替调查结果。

处理缺失数据的问题是数据清理及数据预处理领域研究的主要问题之一。这些不完整、不准确的数据会影响从数据集中抽取的模式的正确性和导出规则的准确性，建立错误的数据挖掘模型，使得应用于前端的决策支持系统产生不准确的分析结果和决策，导致企业费用的增加和利润的减少，影响信息服务的质量。如果对客户的信用等级有着错误的认识会导致投资风险，对某个客户的价值没有充分的认识可能导致失去顾客，错误的记录可能会导致营销资源的浪费等等。

剩余内容已隐藏，您需要先支付 5元才能查看该篇文章全部内容！立即支付

注册

找回密码