数据挖掘技术在超市零售中的应用研究文献综述
2020-04-20 13:02:23
1目的和意义
1.1研究背景
随着国内各个大型超市的迅速崛起和国外超市企业的介入,以及大型超市在采购配送、人员素质、管理技术、营销技术、服务理念等方面的不断完善和发展,这也使得我国当前超市行业的竞争日常激烈,各大超市在竞争中为了获取更多的竞争优势,也在不断的对超市利润进行压缩,使得成本控制已经很难为超市经营过程中提升其竞争优势了,这就需要进一步从服务的角度进行深入,挖掘和分析出顾客所需要的信息,为客户进行量身定制各种服务和产品,成为了未来超市销售发展的一个重要方向。
目前我国国内的超市整个行业的竞争已经达到了白热化的程度,随着大型连锁超市对成本的不断挤压,整个超市行业的利润已经达到了前所未有的低,这对于消费者来讲,是一个非常好的消息,但是对于大量的超市企业来讲,其生存将变得越来越困难,特别是在超大型的连锁机构对整个市场的挤压下,小规模的超市目前已经很难存活,如在我国北上广深等大型一线城市,万达购物广场、国美、步步高等大型超市的进入,其基本将当地原有的小型超市挤出局,并且大型超市之间的竞争也越来越激烈,特别是近年来互联网线上线下的融合,使得超市面临的竞争达到了前所未有的激烈,同时互联网等新兴技术的接入,这也使得各大超市将目光转向了使用互联网新兴技术来服务与超市管理和各种信息的分析,使得其能够拥有更多的竞争优势,超市大数据技术正是在这种情况下发展起来的,在这真竞争白热化的环境下,各大超市开始注重自己的超市管理和超市信息数据的利用,开始利用超市已有的数据信息来分析和预测超市的各种数据流的走势和趋势,以提前掌握和了解整个超市行情,这也触使了大数据技术在超市数据挖掘分析中的发展和应用,并且从近年来大数据在超市数据挖掘分析中的应用情况来看,目前数据挖掘分析在超市中的应用已经开始得到了各大超市的认可和重视。
中国零售业是目前国民经济中市场化程度最高和开放最早的行业之一,在经历了自1978 年开始的流通体制改革,尤其是在 1992 年允许外资零售企业进入中国零售领域以后,获得了巨大的发展。中国零售业态的发展可以划分为两个阶段,其中自 21 世纪 70年代以前可以划分为一个阶段,该阶段我国的零售业主要是以国有企业经营为主,各种零售都是在计划经济模式下进行的基本上是按需配给,第二个阶段主要是指 1992 年尤其是近年以来互联网的发展下以超市和网络销售并存的多模态零模式。目前,超级市场为一种新的销售形式在我国出现以来,由于其具有商品价格低、品种多和商品直接面向顾客等优势,目前已成为我国商品流通领域中非常重要的一种形式。我国超市企业中出现了以联华、华联、农土商超市、苏果超市、华润万家、国美、苏宁、三联等为代表的一批民族品牌。自正式建立连锁超市统计的近三年来,限额以上连锁零售企业的门店和销售额年平均增速分别高达23.6%和30%,表现出快速扩张的态势。但是,随着超级市场规模的不断增大,超市内的各种商品的种类和交易量也急剧增大,特别是信息化管理模式下,使得超市的数据可以随着时间逐步的积累,这就使得长期以来超市如何解决以最少紫荆组织最快的商品流动和根据顾客需求进行合理的商品布局和搭配等问题的解决成为了可能,各大超市企业开始注重如何利用这些数据去提高其在整个行业的竞争力。
数据挖掘(Data Mining)技术作为近年来计算机互联网领域发展的一门新兴技术,其借助于分布式计算技术,可以快捷有效的处理大量历史和现有数据,能够从数据库中发
现一些潜在的、有用的、有价值的信息来应用于超市经营,为从数据海洋中直接挖掘相关信息变化规律和信息的潜在价值成为了可能。而在竞争日益激烈的当前,企业如何利用当前已有的信息数据充分挖掘其信息价值成为了当前企业进一步提升自己的竞争优势的关键,正在变得越来越重要,因此,将数据挖掘应用于我国的大型超市,将有助于企业管理者及时、准确地把握销售过程中各种因素(如顾客、商品等)的总体特征和发展趋势,从而改善企业的运行状况,提高自身的竞争能力。
1.2国内外发展现状
在国外,目前关联性挖掘技术已经被广泛的应用到 CRM 领域,借助于 CRM 的应用,数据挖掘技术在零售企业得到了快速的发展和应用,如 WALMART 的经典的“啤酒和尿不湿”的案例,就是一个典型的数据挖掘分析案例,这以案例至今依然是各大超市信息化管理中的经典案例,被人们津津乐道。
关联性挖掘分析最早是由 IBM 功能的工程师在 1993 年对顾客交易数据的研究和分析中提出,这一概念的提出,在后来得到了许多研究人员的认可和青睐,并且大量的研究人员对关联性规则挖掘分析方法进行了深入研究,总的来讲,目前已有的关联性规则挖掘研究工作主要可以分为对原有的算法进行改进和优化和对已有的算法进行应用推广两个方面的研究。在算法改进上,如 Alise 学者就针对交易数据频繁集的特点,提出了一种改进和优化频繁集合的关联性挖掘分析算法,这一算法可以有效的提高算法挖掘的效率和准确性,并且在分析过程中,其集合了自适应的神经网络分析算法,可以对最优的频繁集进行不断的学习和优化,这样就大大的降低了后续关联性挖掘分析算法处理的频繁集的内容,同时提高了其挖掘分析效率。后续的关联性挖掘分析算法研究来看Apriori 算法成为了当前最为流行的关联性挖掘分析算法,这种算法主要是基于频繁出现的规律来继续挖掘分析的,在算法分析过程中需要找出一些高度相关的元素,这样就可以使得这些元素不是频繁的出现,同时在 Apriori 算法中,其起到决定性的左右的还有支持度参数,通过将支持度参数进挖掘分析,可以得出置信度最高的规则,并且可以根据置信度的高低对各种规则进行排序,以得到最终想要的结果,目前对于 Apriori 算法的研究非常多,如文献[5]中就提出了一种改进的 Apriori 算法,这种改进的 Apriori 算法中使用了一种 FP-growth 方法,通过该方法可以在完成一次数据库的扫描之后,将频繁集合生成一颗 FP-tree 树来进行存储,这种模式下相对于一般存储模式下,其信息量得到了降低,并且可以很好的保存其中的规则的关联信息,在生成 FP-growth 树后,可以将该树分化成一系列的条件库,这样基于这些条件库来进行挖掘分析,就可以极大的降低挖掘分析过程中的扫描和计算次数,极大的提高挖掘分析的准确性和可靠性。同样,在文献[6]中也提出了一种关联性挖掘分析算法,这种算法通过在挖掘过程中采用 hash 方法来计算特征,通过将一条记录总的头 K 个位 1 的字段进行 hash 处理,然后将整个数据库采用一种概率方法来进行分析,可以很好的兼顾算法分析过程中的时空效率、错误了和遗漏率;文献[7]中也对传统的 Apriori 关联性挖掘分析算法进行了研究,其在挖掘过程中尝试了不使用频繁集来进关联性挖掘分析,这样就可以有效的避免频繁集处理过程中的缺陷,进而提高 Apriori 算法的效率和准确性;文献[8]借助于 OLAP 技术和关联系挖掘分析算法,提出了一种基于 OLAP 和 Apriori 算法的挖掘分析模型,通过利用商场销售数据作为源数据进行处理,实现了基于混合模型的销售数据挖掘分析,结果表明,这种混合挖掘模型可以有效的提高算法分析的准确性和可靠性。但是从已有的研究来看,基本上都是使用支持度——置信度这一经典框架来进行挖掘分析的,然而,支持度——置信度框架下其导出的规则并不一定是满足用户兴趣的,已经有大量的实验结果表明,在这一款叫下得到的关系的规则很多时候还会存在一定的欺骗性,这也使得后续人们对度量、优化的方法开始逐步重视起来,很多学者开始研究在挖掘中如何引入到兴趣等各种挖掘约束条件来提高数据挖掘分析的准确性,以满足用户兴趣需求。如在文献[11]中就给出了一种经典的基于约束的挖掘模型,在这种框架下,挖掘过程中可以加入到兴趣约束,以对挖掘结果进行进一步规范,使得挖掘出来的关系规则更加可行和可性。