基于随机森林的P2P中借款人违约风险预测研究毕业论文
2021-11-09 21:13:49
摘 要
P2P平台是高效又便捷的投融资渠道,借款人违约风险的存在不利于P2P市场的健康发展。本文基于随机森林算法,借助Prosper网贷平台的数据集,采取R语言对P2P中借款人的违约风险预测进行研究。对数据集进行数据清洗及过滤式特征选择后,通过循环遍历法获得随机森林预测模型的最优参数组合,综合利用混淆矩阵及ROC曲线对模型的预测结果进行评估,并对模型的指标体系进行特征重要性排序。
评估结果表明模型的预测效果良好,具有0.79的准确率,且AUC值为0.71。此外经过经过分别依据MeanDecreaseAccuracy值和MeanDecreaseGini值对特征重要性进行排序后,可得在预测违约风险中更值得受到关注的7个变量分别为:信用评分、过去七年的信用总额度、借款人的月收入、循环信贷余额、可用银行卡信用、总交易次数及循环账户每月还款数量,其中前五个变量与为违约风险呈负相关,后两个变量与违约风险呈正相关。
关键词:P2P;借款人违约;风险预测;随机森林
Abstract
P2P platform is an efficient and convenient channel for investment and financing. The default risk of borrowers is not conducive to the healthy development of P2P market.Based on stochastic forest algorithm and with the help of Prosper's data set, this paper adopts R language to study the default risk prediction of borrowers in P2P.After data cleaning and filtering feature selection for the data set, the optimal parameter combination of the random forest prediction model was obtained through the cyclic traversal calendar. The prediction results of the model were evaluated comprehensively by using the obfuscating matrix and the ROC curve, and the index system of the model was ranked in importance by the characteristics.
The evaluation results show that the prediction effect of the model is good, with an accuracy rate of 0.79 and an AUC value of 0.71.Moreover after after respectively on the basis of MeanDecreaseAccuracy value and MeanDecreaseGini importance to feature after sorting, available in the prediction of risk of default deserves more attention in the seven variables are: credit scores, credit a combination of the past seven years, the borrower's monthly income, balance of revolving credit, bank credit available, the total transaction number and account number of every months of reimbursement, the top five variables and negative correlation to the risk of default, after two variables was positively associated with the risk of default.
Key Words: P2P; Borrower's default; Risk Profile; Random Forest
目 录
第1章 绪论 1
1.1 研究背景与研究意义 1
1.1.1 选题背景 1
1.1.2 研究意义 2
1.2 文献综述 2
1.2.1 国内相关研究 2
1.2.2 国外相关研究 3
1.3 研究方法与研究内容 4
1.3.1研究方法 4
1.3.2 主要研究内容 5
第2章 P2P中借款人违约风险预测指标体系的构建 6
2.1 样本数据来源及变量说明 6
2.2 样本数据清洗 12
2.3 特征选择 15
2.4 P2P中借款人违约风险预测指标集 17
第3章 基于随机森林的P2P借款人违约风险预测模型 19
3.1 基于随机森林的预测模型理论 19
3.2 基于随机森林的P2P借款人违约风险预测模型参数设置 20
3.3 基于随机森林的P2P借款人违约风险预测模型的评估 22
3.3.1 混淆矩阵和ROC曲线 22
3.3.2 P2P借款人违约风险预测模型的评估 24
3.4 基于随机森林的P2P借款人违约风险预测模型的指标分析 25
第4章 实证分析 28
第5章 研究结论 31
参考文献 32
附录A 34
附录B 35
附录C 36
致谢 38
第1章 绪论
1.1 研究背景与研究意义
1.1.1 选题背景
对个人和经济实力较弱的中小企业来说,类似银行贷款、股票、债券等的传统投融资渠道门槛过高,企业难以通过它们来达到自身资金需求的满足。由此便诞生了P2P金融模式,在这种新型模式下,拥有闲置资金出借的个人与有资金需求的个人或企业可以在平台上自行对接,从而达成贷款协议。P2P平台提供了足不出户即可完成借贷交易的高效体验,提高了金融系统的活力和资金使用效率。正因为P2P具有颇多的优点,它自诞生以来便得到了快速的发展。据中国产业信息网显示,中国2010年的P2P运营平台数量为10家,此后的四年里分别为50家、200家、800家、1575家,2015年的P2P运营平台数量便达到了2595家,已经增长为2010年的52倍左右。而各年的P2P成交额也由2011年的31亿元发展为2015年的9823亿元。
但是随着P2P迅猛发展之势而来的还有大量的网贷风险事件,P2P行业乱象逐渐走进大众视野。其中P2P中贷方违约的成因可总结为三类。其一是逆向选择风险。此风险源于信息的不对称,发生于借款前。P2P平台上,不乏采取谎报实际收入水平、学历等措施的借款人,他们希望以此来提高自己的可信度从而成功获得预期钱款。针对这一现象,尽管绝大多数P2P平台都已实施实名制注册,但借款人的许多信息仍是他们没有能力和条件去进行核实的,这也就致使投资方需要承担很大的风险。正由于投资人很难在P2P平台确定贷方信息的真实性与准确性,所以他们往往会选择承诺高利率的借款人以期弥补可能存在的损失。经过这样的逆向选择,高风险高利率的投机主义者被留下,而很多真正诚实守信但低利率的借款人却被迫退出P2P市场,投资方无疑承担了巨大的违约风险。其二是道德风险。这种风险同逆向选择风险一样,也源于信息的不对称性,但其大都发生于借款中及借款后。贷方在投机心理的驱使下,认为P2P平台无法核实自己信息的真实与否,于是不按约定对借款进行使用,从而导致了违约风险的存在。其三是不可控风险。这种风险主要来源于外界环境或借款人自身发生了不可控的变故,如政策的改变、经济市场的变化、借款人的意外死亡等。这些情况的发生将导致借款人还贷受阻,形成潜在违约风险。