在线购买行为预测的研究文献综述
2020-04-30 16:14:29
随着 移动设备的完善和普及,移动互联网 各行各业进入了高速发展阶段,比如移动电商业务的快速发展,2017年天猫双11全球狂欢节总交易额(GMV)达到1682亿元人民币,移动端成交占比90%,覆盖超过220个国家和地区。这相比2009年双11只有5200万元的交易额,增长了超过3000倍。然而,移动电商业务给人们的生活带来方便的同时,由于其中商品的种类丰富而且营销方式多种多样,这些海量信息也为用户在挑选所需商品的同时增添了诸多困难。因此,借助技术手段准确分析用户购买行为,为用户决策或商家营销提供支撑,已成为当前面向商务智能的数据挖掘领域重要的研究问题,对于改善用户体验、提高电商收益具有重要意义。在此背景下,协同过滤等定向推荐技术应运而生,并广泛运用于各电商网站的营销系统中。这些传统的推荐技术主要分析用户的购买行为,并以此为依据推荐相似或者相关的商品来供用户选择。然而,它们仅着眼于孤立的购买行为,却忽略了这些购买与用户其他类型的行为(如在购买时对商品的浏览、收藏、加入购物车等)之间的关联。因此,定向推荐技术往往能够分析出用户会购买哪一类型的产品,却不能精准预测用户最终选择哪个商品进行购买。在线购买行为预测对于提高电商网站经济效益有着重要的意义,所以,如何利用用户在对商品的各种行为操作来描述用户的当前购买意图,准确预测用户将要发生的购买行为是现在需要关注的核心问题。本课题从用户在电商平台的行为数据入手,采用数据挖掘等相关算法,从商品特征、用户购买习惯等多维度建立购买行为预测模型,为电商更精准的个性推荐奠定基础。
国外学者针对非契约情境下用户的购买行为预测也提出了很多具有代表性的模型,如 Pareto/NBD模型、NBD 模型、BG/NBD 模型、LSD 模型、NBD-Dirichlet 模型等。这些模型中Schmittlein、Morrison和Colombo提出的Pareto/NBD模型,被称为刻画非契约情境下用户购买行为和流失行为的最经典概率模型。之后很多学者由于各种原因尝试对此模型进行了改进,同时国内外很多学者利用 Pareto/NBD模型进行了实证研究。
国内外大型电子商务企业都不同程度上运用了商品推荐算法,学者也将统计和机器学习方法用于商品推荐的研究中,以期提高预测的准确度。雷名龙分别采用随机森林、逻辑回归和 SVM 分类模型,以阿里巴巴电子商务平台4个月的购物数据为研究对象,对用户未来是否会购买某种商品做出行为预测。张春生等考察了品牌可信度、价格、付款人数等多种评价指标对于用户购买行为的相关性。Vieira等采用深度置信网络和自编码器等深度学习策略,就筛选出的商品及用户特征进行建模,将其与传统的决定树、随机森林等算法进行比较,发现深度学习方法有利于获得更好的预测结果。马月坤等采用构建用户行为知识库的方法,对客户的行为信息进行了有效存储和更新管理。
{title}
2. 研究的基本内容与方案
{title}
基本内容:利用数据挖掘和机器学习领域的理论和方法,以用户在电商平台的行为数据为基础,采用数据挖掘等相关算法,从商品特征、用户购买习惯等多维度建立购买行为预测模型。
目标:在竞争激烈的电子商务市场中,各大电商都在探求产品促销的精准定位方案,以达到增加用户粘合度、提升网站竞争力的目的,本课题拟构建在线购买行为预测模型,为电商更精准的个性推荐奠定基础。
拟采用的技术方案及措施:这次毕业设计的训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)对商品子集(P)的购买数据。使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。主要是针对用户的操作行为,基于行为的相似,不同于用户和商品类似的ItemCF,UserCF,而是一个二分类问题,即用户对商品买还是不买。二分类会用到分类算法,有随机森林,GBDT,xgboost,LR等算法。拟选取的是xgboost算法。由于不能确定用户是否会购买该商品、不能确定用户会在何时购买,因此没法通过学习历史数据去评估这两个因素的影响。这里需要预测的是有历史行为的用户商品对,预测用户是否会购买,是否当天购买。所以需要构建一些特征,如用户特征(只是针对用户来说的,反映的是用户整个购物习惯与购物规律,而与具体哪件商品无关)、商品特征(反映商品本身的品质或者受欢迎程度如何,而与具体哪一个用户没有关系)、用户-商品特征(用来表现某个用户对某件商品的喜爱程度或是购买的可能性)、商品类别特征(体现用户对这一类商品的偏爱程度及商品的竞争力),对于XGBoost在python平台中有XGBoost的Python模块。对于XGBoost的参数可以使用sklearn里面的GridSearchCV,GridSearchCV用于系统地遍历多种参数组合,通过交叉验证确定最佳效果参数