基于神经网络的信贷记录数据挖掘算法设计开题报告
2021-03-08 22:56:53
1. 研究目的与意义(文献综述)
1.目的及意义(含国内外的研究现状分析)
1.1研究的目的及意义
互联网金融公司在不断的发展,并且越来越受欢迎,因为他能为传统金融机构所不能服务的人群提供一些独有的服务,而这些独有的服务核心关键是当今备受投资人关注的风控能力,特别是互联网金融客户信用评价机制。对金融机构来说,信用风险评估极为重要:金融机构一直以来都在考虑客户的信用风险,以便在特定时期就是否向客户放贷以及放贷额度等问题上做出正确的决策,如果客户晚于计划日期还贷,那么金融机构就会面临一定的风险损失,因此准确评估客户信用风险,可以使金融机构更大限度盈利的同时,尽量免受因客户违约造成的损失[1]。
资产证券化的各种优势给金融机构提供了快速处置不良资产的有效途径:资产证券化是依托特定的资产组合或者现金流为支撑而发行的债券,也是融资途径的一种方式,它可以将流动性差、可产生预见稳定现金流的的资产转换成有较强流动性的债券形式,从而在市场上流通。资产证券化这种金融衍生品近年来在我国得以应用,其优良的特性使其受到广泛的关注。资产池信用评测在资产证券化过程中发挥着至关重要的作用,如果能构建一个涵盖资产证券化各参与方的风险控制体系,以可测量的指标来反应资产证券化信用风险违约率,将会大大促进资产证券化的发展。运用神经网络模型对资产证券化资产池信用进行测评,从债务方、发起方、信托机构三方,选取不同的影响因素,对资产证券化实例进行分析,建立一个实际的资产证券化信用风险测评体系[2]。
1.2国内外研究现状
1.2.1国外研究现状
随着现代机器学习等技术的发展,产生了越来越多的可用来进行信用风险评估的模型:包括lineardiscriminant models、logisticregression models、k-nearestneighbor models、decision treemodels、neural network models以及应用广泛的programming models[3]。神经网络模型因其准确性高、抗干扰性强、适应性好等特点被金融机构广泛使用[4]。
2. 研究的基本内容与方案
2.研究(设计)的基本内容、目标、拟采用的技术方案及措施
2.1 基本内容及目标
基本内容:
· 根据企业提供的信贷数据,训练出多种神经网络模型
· 对多种神经网络模型的性能进行对比分析
· 利用已有的模型对信贷资产进行分析,挖掘资产违约风险及其与输入特征量之间的关系
目标:
· 根据信贷数据,训练预测违约风险的简单人工神经网络模型
· 根据信贷数据,训练预测违约风险的卷积神经网络模型
· 根据信贷数据,训练预测违约风险的深度神经网络模型
· 对多种神经网络模型的性能进行分析
· 根据已有神经网络模型,挖掘违约风险及其与输入特征量之间的关系
2.2 技术方案及措施
2.2.1 软件环境
为达到以上目标,首先确定软件环境:
· 考虑到数据是由公司提供,且公司的数据库软件是SqlServer2014所以我们采用Sql Server2014作为数据库软件,用来对源数据进行预处理操作
· Python能够轻易的访问数据库,且对机器学习的支持性极好,所以采用Python作为主要开发工具语言,Python3.5支持Tensorflow机器学习库、Keras深度学习库等,最终确定采用Python3.5版本
· UI展示采用通用前端开发语言:html、css和javascript编写,后台服务采用WCF技术实现
2.2.2 设计方案
本次设计的核心思想是利用已有的信贷记录训练多个神经网络模型,并保存所有的权重和偏置信息;利用训练得到的模型对测试集数据进行计算,将得到的结果与测试结果集进行对比验证分析;不断优化神经网络模型,挖掘输出量与输入特征量之间的关系[8]。
1. 对得到的数据进行清洗[9]:
· 填充数据中的缺值
· 消除噪声数据
· 纠正数据中的不一致数据
2. 选择用于模型输入输出的字段[10]:
| 字段 |
客户维度 | Occupation |
Age | |
Gender | |
AnnualIncome | |
… | |
贷款维度 | CurrentRate |
LoanTerm | |
Seasoning | |
ApprovalAmount | |
… |
3. 对数据进行预处理操作[11]:
· 对于连续数据,进行归一化处理,利用如下公式
· 对于离散数据,重新编码,如Gender=”男”,则重新编码为Gender=[1,0]
4. 运用BP算法,改进BP算法等对普通人工神经网络ANN进行训练,并根据输出结果反馈,尝试寻找最优化的预处理方案[12]:
· BP算法的4个核心公式[13]:
· 改进BP算法[14]:附加动量法,弹性梯度下降法等
5. 使用框架搭建和训练CNN和DNN模型:
· 使用tensorflow框架和keras框架搭建卷积神经网络模型和深度神经网络模型,并利用信贷记录对其进行训练
· 多次训练,尝试寻找适合该任务的最优化模型
6. 对已有模型应用主成成分分析等方法,挖掘违约风险与输入特征量之间的关系[15] :
· 运用主成成分分析(PCA)方法得到归一化后变量的重要性图表
7. 编写前端页面,WCF服务,展示成果
3. 研究计划与安排
3.进度安排
第1-4周:查阅相关文献资料,明确研究内容,了解所需理论知识,对任务要求进行分析,确定方案,完成开题报告。
第5周:实现简单人工神经网络模型,对性能进行分析,并挖掘输出与输入特征量之间的关系。
第6-7周:学习tensorflow框架和keras框架
4. 参考文献(12篇以上)
4.参考文献
[1] 韦力元.基于bp神经网络的信用卡消费行为风险评估[d].成都:西南财经大学,2007.
[2] 庞明,谷涛.神经网络模型在不良资产证券化资产池信用风险分析中的应用[j],2007,(9):30-31.
[3] cheng-lung huang, mu-chen chen, chieh-jen wang.credit card scoring with a data mining approach based on support vectormachines[j]. expert systems with applications,2007:847-856.