登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 理工学类 > 自动化 > 正文

基于KSMOTE-RF模型的P2P网贷借款人信用风险评估毕业论文

 2022-04-17 22:11:52  

论文总字数:23021字

摘 要

近年来,受益于政府的支持与推动,P2P成为当下最火热的行业之一。但该行业也面临着许多风险,其中信用风险已成为其进一步发展的最大阻碍。国内外针对P2P信用风险的评估,无论是指标体系还是评估模型都很不完善,亟待进一步的研究。

首先,针对P2P借款人数据非平衡化的特点,本文将KNN算法与SMOTE算法结合起来,近邻的筛选可删除多数类中易与少数类样本混淆的样本,然后再通过SMOTE算法扩充少数类样本,从而达到平衡数据的作用。实验证明,数据在平衡化后,违约样本的识别率得到很大的提升,取得了良好的效果。

接着,参考传统商业银行与现存P2P网贷平台的指标体系,初步筛选了一组P2P借款人信用风险评估指标,以此为基准对原始数据进行了预处理,以便于后期模型的构建。

然后,利用随机森林算法与K折交叉进一步约简指标,保留了14个指标,建立了一套现实可行的指标体系。

最后,将经过平衡化及预处理的数据用于随机森林算法,充分学习两类数据的数据特征,从而构建出最终的预测模型,并进一步通过优化随机森林的参数提高了模型的精度。根据ROC分类性能指标,将本文所建立的模型与SVM等其他分类算法相对比,实验表明,本文所建立的模型精度更高,可为风险决策提供一定的参考。

关键词:P2P网络贷款 SMOTE算法 KSMOTE算法 随机森林算法 K折交叉验证

Study on credit risk assessment for online P2P lenders based on the model of KSMOTE-RF

ABSTRACT

In recent years, benefiting from the support and promotion of our government, P2P has become one of today's hottest industry. But it also faces a number of risks, during which credit risk has become the biggest obstacle to the further development of it. Right now, the assessment of P2P credit risk, whether the target system or the model, is not perfect and need further study.

For the characteristic of the non-equilibrium, this paper combines KNN algorithm and SMOTE algorithm. With the help of KNN, samples of the majority, which are mixed with samples of the minority, can be deleted easily and SMOTE can extend samples of the minority, so the data will become more balanced. Experiments show that after balance, the result is better.

Then referring to the target system of traditional commercial bank and P2P platform, this article chooses some targets, based on which, this paper processes the raw data.

Besides, this paper uses randomforest and K-fold-cross algorithm to establish a relatively effective system of 14 targets.

In the end, this paper creates randomforest model with the data above. At the same time, by optimizing the parameters, the accuracy of the model is improved. Besides, this paper compares the model with other algorithms, for example SVM according to ROC. Experiments show that the model created by this is better. and the model can provide some useful messages for credit risk assessment.

KEYWORD: P2P Loan; SMOTE; KSMOTE; Randomforest; K-fold-cross validation

目 录

摘 要 I

ABSTRACT II

第一章 绪论 1

1.1 研究背景及意义 1

1.1.1 研究背景 1

1.1.2 研究意义 1

1.2 国内外研究现状综述 2

1.3 研究内容与研究思路 3

1.4 论文的重点工作 4

第二章 基于KSMOTE算法的数据平衡化 5

2.1 非平衡数据概述 5

2.2 K近邻算法 6

2.3 SMOTE算法 6

2.4 KSMOTE算法 7

第三章 基于随机森林与交叉验证的指标约简 9

3.1 随机森林概述 9

3.1.1 随机森林算法原理 9

3.1.2 随机森林的泛化误差 11

3.1.3 OOB误差估计 11

3.1.4 随机森林指标重要性计算 12

3.2 K折交叉验证 13

3.3 随机森林参数优化 14

第四章 P2P网贷借款人信用风险分析 15

4.1 数据预处理 15

4.1.1 数据泛化 15

4.1.2 缺失值处理 16

4.1.3 标准化处理 17

4.1.4 离群值处理 19

4.1.5 分层抽样 20

4.2 数据平衡化 21

4.3 信用风险指标筛选 22

4.3.1 指标重要度排序 22

4.3.2 指标再筛选 23

4.4 随机森林参数优化 25

4.5 实验分析 28

4.5.1 测试及结果 28

4.5.2 与其他分类算法的比较 28

第五章 总结与展望 30

5.1 工作总结 30

5.2 工作展望 31

参考文献 32

致谢 34

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

P2P网贷(peer to peer lending)是一种基于网络平台的新兴个人直接借贷模式,自诞生以来,其因简单快捷的特点引发了大众的高度关注,并在某种程度上影响改变了传统金融的借贷模式。世界上第一家P2P网络信贷公司起源于英国,其名为Zopa。从2005年3月在伦敦上线运营至今,Zopa的版图已扩至美国、意大利等国家,规模不可谓不庞大。相对而言,我国的P2P网络信贷起步较晚,直到2007年才诞生了国内首个个人网络借贷平台—拍拍贷[1]

但依托于我国整体经济与金融行业的腾飞,国内P2P信贷行业得到了快速发展。从2007年至今共9年的时间内,国内已建立了包括人人贷在内的多家P2P借贷平台,并且每个月都会有不少新平台被创建。据网贷之家的数据显示,截止到2016年4月,国内P2P网贷平台数量累计已达4029家,2015年全年行业成交额更是突破万亿,行业累计发展速度远远超过国内任何一个行业。

请支付后下载全文,论文总字数:23021字

您需要先支付 50元 才能查看全部内容!立即支付

微信号:bysjorg

Copyright © 2010-2022 毕业论文网 站点地图