基于知识图谱和LightGBM模型的关联企业合谋骗贷研究毕业论文
2021-10-21 17:19:04
摘 要
现如今信贷欺诈手段日益复杂化、关联化和群体化,关联企业合谋骗贷作为商业银行信贷欺诈风险管理中一个尚未完全解决的复杂欺诈形式,每年给商业银行造成巨大的经济损失,扰乱金融市场的稳定秩序。为了解决商业银行面对关联企业合谋骗贷识别和防范的窘境,本文首先运用知识图谱技术,深度刻画关联企业间的关联关系,并深入挖掘具有高欺诈风险的关联企业群。其次,基于对关联企业合谋骗贷手段特征的总结,建立了专业化的贷前风险预警指标体系。最后,引用机器学习方法设计了一个判别高风险关联企业群是否欺诈的LightGBM模型。本文构建的关联企业合谋骗贷贷前欺诈识别模型,完善了商业银行识别特定欺诈场景的技术手段,给商业银行构建其他专业化反欺诈场景提供了理论方法上的一点支撑。
本文的特色:尝试应用知识图谱这一智能化技术来理清企业间复杂的关系网络,探索推进新型机器学习模型在商业银行智能化反欺诈的应用。
关键词:关联企业合谋骗贷;知识图谱;LightGBM模型;信贷反欺诈
Abstract
Nowadays, the methods of credit fraud are becoming increasingly complicated, connected and grouped. As a complex form of fraud that has not yet been fully resolved in the credit fraud risk management of commercial banks, affiliated enterprises conspire to defraud loans, causing huge economic losses to commercial banks and disrupting the financial market every year. In order to solve the dilemma that commercial banks face in the identification and prevention of conspiracy to defraud by affiliated companies, this paper first uses knowledge graph technology to deeply describe the association relationship between affiliated companies and dig deep into the affiliated enterprise group with high fraud risk. Second, based on the summary of the characteristics of conspiracy to defraud loans by affiliated companies, a professional pre-loan risk early warning indicator system is established. Finally, a machine learning method is used to design a LightGBM model to judge whether high-risk affiliated companies are fraudulent. In this paper, the model that can identify affiliated enterprises’ conspiracy to defraud loans before lending improves the technical means for commercial banks to identify specific fraud scenarios and provides a theoretical support for commercial banks to construct other specialized anti-fraud scenarios.
The characteristics of this article: It tries to apply the intelligent technology of knowledge graph to clarify the complex relationship network between enterprises, and explores the application of new machine learning models in the intelligent anti-fraud of commercial banks.
Key Words:affiliated enterprises’ conspiracy to defraud loans; knowledge graph; LightGBM model; credit anti-fraud
目 录
第1章 绪论 1
1.1 选题背景 1
1.1.1 研究背景 1
1.1.2 研究意义 1
1.2 研究方法与研究思路 2
1.2.1 研究方法 2
1.2.2 研究思路 3
1.3国内外研究动态 4
1.3.1 商业银行识别企业间关联关系的研究现状 4
1.3.2 关联企业合谋骗贷手段的研究现状 4
1.3.3 商业银行识别关联企业合谋骗贷的研究现状 5
1.3.4 知识图谱在反欺诈领域的研究现状 6
1.3.5 LightGBM模型在反欺诈领域的研究现状 6
第2章 基于知识图谱和LightGBM模型识别关联企业合谋骗贷的理论与方法 7
2.1关联企业合谋骗贷的定义和特征 7
2.1.1 关联企业的定义 7
2.1.2 关联企业合谋骗贷的定义 7
2.1.3 关联企业合谋骗贷的特征 8
2.1.4 关联企业合谋骗贷的主要手段 8
2.2商业银行识别关联企业合谋骗贷的方法比较 9
2.2.1 商业银行识别关联企业合谋骗贷的传统方法 9
2.2.2 大数据下商业银行识别关联企业合谋骗贷的方法 9
2.3知识图谱 10
2.3.1 知识图谱的概念和基本原理 10
2.3.2 知识图谱的适用场景 11
2.3.3 知识图谱的优缺点 12
2.4 LightGBM模型 12
2.4.1 LightGBM模型的概念和基本原理 12
2.4.2 LightGBM模型的适用条件 13
2.4.3 LightGBM模型的优缺点 13
第3章 商业银行识别关联企业合谋骗贷的现状及存在问题 15
3.1 商业银行识别关联企业合谋骗贷的现状 15
3.1.1 结合使用信息系统与人工调查识别关联企业 15
3.1.2 完善更新基于历史欺诈案件的专家经验规则 15
3.1.3 着手搭建风险可量化的智能化反欺诈体系 15
3.2商业银行识别关联企业合谋骗贷存在的问题 16
3.2.1 关联企业间的隐藏关联认定不完整 16
3.2.2 以事后监测为主的反欺诈设计缺乏事前预警指标 16
3.2.3 现有机器学习识别技术对复杂欺诈的适用性差 16
第4章 基于知识图谱发现高欺诈风险关联企业群 17
4.1 原始数据预处理 18
4.1.1 数据清理 19
4.1.2 实体对齐 19
4.1.3 属性决策 19
4.2 构建关联企业知识图谱 19
4.2.1 抽取实体 19
4.2.2 抽取关系 20
4.2.3 抽取属性 20
4.3 发现高风险关联企业群并提取群网络欺诈特征指标 21
4.3.1 基于知识图谱发现高欺诈风险关联企业群 21
4.3.2 提取关联企业群的网络欺诈特征指标 22
第5章 基于LightGBM构建商业银行识别关联企业合谋骗贷模型 23
5.1 LightGBM方法识别关联企业合谋骗贷的可行性分析 23
5.2 构建关联企业合谋骗贷的风险预警特征指标体系 23
5.3 数据预处理与数据集划分 24
5.3.1 数据清洗 24
5.3.2 数据加工 25
5.3.3 训练集与测试集划分 25
5.4 构建基于LightGBM的反欺诈模型 26
5.4.1 选择LightGBM模型评估指标 26
5.4.2 训练LightGBM模型并进行评估 27
5.4.3 调优LightGBM模型参数并进行评估 27
5.5 运用LightGBM反欺诈模型进行实验预测 28
第6章 对策与建议 30
6.1 商业银行充分识别关联企业合谋骗贷的对策建议 30
6.1.1 运用知识图谱深度刻画关联企业间的关联网络 30
6.1.2 构建基于专业化场景特征的事前风险预警指标体系 30
6.1.3 推进LightGBM在内的新型机器学习模型在复杂欺诈识别中的应用 31
6.2 本文展望 31
6.2.1 由贷前欺诈识别向信贷全流程反欺诈过渡 31
6.2.2 完善行业内外数据整合以避免风险数据孤岛化 31
参考文献 33
致谢 34
第1章 绪论
1.1 选题背景
1.1.1 研究背景
如今商业银行逐渐倾向于提供场景化、网络化服务,这使得欺诈风险有机可乘,突出成为商业银行面临的重要挑战。据统计,外部欺诈风险每年给全世界银行造成的损失高达七百多亿美元,而我国银行每年因此也损失上百亿元人民币。其中,信贷欺诈已经演变成复杂化、关联化和群体化,是商业银行遭受欺诈损失的重灾区。除了给商业银行带来了巨大的经济损失,损害了银行的品牌信誉外,信贷欺诈案件的频发也打破了金融市场稳定发展的格局,引起社会的恐慌和动荡。
在经济增长下行趋势压力下,新兴中小型企业依赖于商业银行贷款的程度加深、规模加大,使得隐匿于其中的欺诈风险逐步暴露。中小型关联企业间的复杂关联关系和普遍的关联交易成为了其隐瞒真实借款人、虚构交易合同、转移信贷资金等骗贷行为最好的保护网,因此有关关联企业间合谋骗贷的经济案件频发且多损失巨大。如前两年的福建省泉州市8家商业银行集体遭骗案就是多家关联企业的实际控制人黄某在2014年9月至2015年7月期间,利用关联方关系,虚构产品购销合同等贷款申请材料,采取交叉担保的方式骗贷,致使8家银行共计被骗4.98亿元人民币。
针对关联企业合谋骗贷这种专业化的欺诈场景,隐蔽性、群体性的特点大大增加了商业银行欺诈识别和防范工作的难度。尽管近年来商业银行在信贷申请欺诈风险的防范工作方面已经积累了诸多经验,但是当前的工作多为面向大中型企业或面向个人信贷的反欺诈方案[1]。对于目前许多以群体形式合谋开展的大型贷款欺诈案件,商业银行反欺诈的分析和技术仍在逐步探索中。本文的研究正是在此背景下展开,探索人工智能技术和机器学习方法在商业银行对于关联企业合谋骗贷识别和防范中的研究。
1.1.2 研究意义
1.1.2.1现实意义
关于研究关联企业合谋骗贷的识别与防范的现实意义体现在如下两点: