基于GBDT的电信客户流失预测分析毕业论文
2022-03-03 20:49:00
论文总字数:27721字
摘 要
随着电信行业竞争日益激烈以及新技术的挖掘的新竞争对手的引入,电信企业的客户正在不断流失。因此,如何减少客户的流失是当今电信业亟待解决的难题。本文研究如何通过机器学习的方法来对电信客户的流失进行预测。首先,对江苏某电信公司的客户流失数据进行预处理,应用了合成少数类过抽样技术(Synthetic Minority Over-sampling Technique,SMOTE)来处理不平衡的基准数据集。接着使用主成分分析(PCA)方法对数据进行属性约简,然后构建了一种基于梯度提升决策树(Gradient Boosting Decision Tree, GBDT)的电信客户流失预测模型,最后用该模型对电信客户流失数据进行预测和测试,实验表明了该方法的有效性。并通过与决策树(Decision Tree)、逻辑回归(Logistic Regression)、支持向量机(SVM)、K近邻(KNN)、贝叶斯分类器(Bayesian classifier)等当前常用的客户流失模型进行比较,验证了GBDT模型的总体预测性能的优势。
关键词:客户流失预测 SMOTE 主成分分析 GBDT
Analysis of Telecom Customer Churn Based on GBDT
Abstract
With the increasing competition in the telecommunications industry and the introduction of new competitors in new technologies, the churn rate of telecom companies is gradually increasing. Therefore, how to reduce the loss of customers is the telecommunications industry today to solve the problem. This paper examines how the machine learning method can be used to predict the loss of telecom customers. First, the company's telecom customer loss data preprocessing, the application of SMOTE (Synthetic Minority Over-sampling Technique) to deal with unbalanced reference data set. Then, we use the Principal Component Analysis (PCA) method to reduce the attributes of the data, and then construct a Gradient Boosting Decision Tree (GBDT) telecom customer churn prediction model. Finally, we use this model to analyze the data of customer loss Prediction and testing, the experiment shows the effectiveness of the method. Compared with the current commonly used customer churn models such as Decision Tree(DT), Logistic Regression(LR), SVM, KNN and Bayesian Classifier, the advantages of the overall prediction performance of GBDT model are verified.
Key Words:Customer churn prediction, SMOTE, PCA, GBDT
目 录
摘 要 I
Abstract II
第一章 绪论 1
1.1 研究背景及研究意义 1
1.2 研究现状 2
1.2.1 不平衡数据处理的研究现状 2
1.2.2 电信客户流失预测的研究现状 3
1.3 研究内容 5
1.4 论文的重点 6
第二章 基于SMOTE算法的数据平衡化 7
2.1 不平衡数据概述 7
2.2 SMOTE算法 8
第三章 建立梯度提升决策树模型 11
3.1 决策树算法 11
3.1.1 决策树的构造 11
3.1.2 ID3算法 12
3.1.3 C4.5算法 13
3.2 Boosting算法 14
3.3 随机森林理论 14
3.4 梯度提升决策树模型的构建 15
第四章 基于主成分分析的电信客户流失数据属性约简 18
4.1 主成分分析的原理 18
4.2 基于主成分分析的电信客户流失数据属性约简 19
第五章 基于GBDT模型的电信客户流失预测 25
5.1 数据预处理 25
5.2 电信客户流失数据平衡化 27
5.3 基于GBDT模型的电信客户流失分析 28
5.3.1 GBDT参数设置 28
5.3.2 基于GBDT模型的电信客户流失的训练和分析 30
5.4 基于GBDT方法与其他方法的分类结果对比 31
第六章 总结与展望 33
参考文献 34
致 谢 36
附 录 37
第一章 绪论
随着大批新兴技术如大数据、互联网、移动通信等风起云涌,越来越多的国家和地区重视信息产业的发展。近年来,我国通信行业飞速发展,已经达到世界领先水平[1],这对促进全球电信业的发展有重要意义。然而,随着通信行业的快速发展,许多问题和挑战也会接踵而至。所以在通信行业中稳步发展是非常重要的。
1.1 研究背景及研究意义
电信客户流失数据集是一个突出的类不平衡数据集,这种数据集对预测的准确度会产生很大的影响。如果样本数据中的多数类和少数类严重的不平衡,那么在预测的时候就有可能会出现预测结果偏向多数类样本的现象。所以想要对电信客户流失数据进行比较准确的预测,首先就要想办法处理数据类别不平衡的问题。
客户流失是指由于利益损失而逐渐离职的注册用户。这几年来,日益激烈的市场竞争使得运营商们投入了大量的人力物力资源,然而结果却不容乐观。文献指出,我国当前的三个最大电信运营商中国联通、中国移动、电信行业的客户流失率分别为18%、13%、10%[2]。在2006年,中国电信某公司的每月新增加客户人数和总客户流失人数的比例将近10:9,2014年5月,中国电信流失的客户接近95万人[3]。外国的电信行业也存在着客户流失的现象,而且比较严峻。据相关调查,国外电信公司客户的月流失率接近2.2%,年流失率接近30%,显然,客户流失现象已经作为一个不可忽视的问题存在于各行各业中。
客户流失现象会招致无法估量的损失。它不但造成了公司的利益亏损,而且还会给公司的形象造成负面的影响。对电信行业来说,公司会因为1%的客户流失率而丢掉数百万元,假如某企业每年的客户流失率为42%,那么这个企业将会亏损484亿元的客户终身价值。相关调查表明,公司培养一个新的客户的费用是留住一个旧客户所需要费用的五倍到七倍,而成功留住一个旧客户的概率是成功发展一个新客户概率的十六倍[4]。老客户可以给公司带来身边的亲朋好友,让他们成为新的消费群,相反,也会因为对公司的服务或者产品不满而带走部分客户,所以形象和信誉对公司来说是很关键的。
请支付后下载全文,论文总字数:27721字