银行大数据 对公客户贷后违约预测模型_光环大数据培训

上传人:gua****an 文档编号:52362101 上传时间:2018-08-20 格式:DOCX 页数:12 大小:47.86KB
返回 下载 相关 举报
银行大数据 对公客户贷后违约预测模型_光环大数据培训_第1页
第1页 / 共12页
银行大数据 对公客户贷后违约预测模型_光环大数据培训_第2页
第2页 / 共12页
银行大数据 对公客户贷后违约预测模型_光环大数据培训_第3页
第3页 / 共12页
银行大数据 对公客户贷后违约预测模型_光环大数据培训_第4页
第4页 / 共12页
银行大数据 对公客户贷后违约预测模型_光环大数据培训_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《银行大数据 对公客户贷后违约预测模型_光环大数据培训》由会员分享,可在线阅读,更多相关《银行大数据 对公客户贷后违约预测模型_光环大数据培训(12页珍藏版)》请在金锄头文库上搜索。

1、 光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/银行大数据银行大数据 对公客户贷后违约预测模型对公客户贷后违约预测模型_ _光环大数据培训光环大数据培训近年来,担保圈风险在一些行业和地区凸显。据第一财经日报获得的监管部门监测数据显示,佛山的银行不良贷款余额从 2013 年末的 60.54 亿元飙升至 2014 年 7 月末的 192.14 亿元,7 个月增幅达 217%;不良贷款率也从去年末的 0.85%升至 2.6%,究其原因,经济上升周期钢贸行业的“联保互保”贷款机制,成为了风险蔓延时的“连坐”机制。“互保互联”将非系统性风险变得

2、系统起来,加速风险扩散,增加贷款主体和银行的风险。因此梳理、分析、防范和化解担保圈风险,已成为稳定经济增长,维护金融稳定的重要方面。担保链中主要隐藏以下几类风险:(一)担保链中存在企业超出自身担保能力对外担保的现象。(二)担保链中个别企业出现信贷风险,风险会通过担保链条迅速传导和放大。(三)担保链信贷风险的集中爆发,易引发区域性和行业性风险,对区域性经济发展产生冲击。恒丰银行正处于高速增长的新阶段,信贷业务与日俱增,客户贷后违约案例也随之上升,传统的人工盲扫式的风控手段跟不上业务的发展。本案例创新应用了大数据技术和机器学习方法,综合客户行内信息、外部数据以及客户担保网络图等信息,深度挖掘和揭示

3、了恒丰银行担保圈风险,构建了贷后违约风险预警模型。此模型成功对客户贷后违约风险进行自动化预警,控制了信贷违光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/约风险,减少了恒丰银行风险运营成本。周期节奏本案例具体实施时间从 16 年 4 月份到 17 年 4 月份,主要分为以下几个阶段一,业务调研和需求梳理(2016.042016.05)二,数据获取及预处理 (2016.052016.07)三,特征工程 (2016.052016.09)四,建模分析评估及优化(2016.062016.10)五,模型部署上线 (2016.102016.11)六

4、,后期改进及前端开发对接 (2016.112017.04)客户名称/所属分类恒丰银行/贷后风控任务/目标如何利用大数据技术进行建模并及时识别、量化企业违约风险;如何识别担保图中主要风险企业及其完整的担保路径;光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/如何对担保圈贷款进行高效清查,并分析担保风险的原因,及时采取防范措施;本案例针对以上问题,基于复杂网络技术深入挖掘担保违约风险影响因子,并运用分布式机器学习算法进行建模,预测企业贷后违约概率。构建动态的担保链网络监控平台,基于客户所在担保链的图特征以及客户行为特征进行建模,提供风险客户

5、名单,基于担保链网络模型找出高风险的担保链和高风险企业客户,加强风控力度,重点监控。挑战传统的风险管理模型主要基于线性数学模型,没有考虑到担保圈的复杂图结构和关联关系对风险的影响,且主要基于行内数据。本文模型融合行内、行外、征信方面的数据提取企业基本属性,历史行为以及担保图和社区特征,精确预测贷后客户下一季度的逾期概率。实施过程中遇到的一些挑战主要归纳为以下几个方面:1)业务数据分析及模型解释在数据挖掘过程中,与一些前沿的算法模型相比,对业务的理解同样重要。数据挖掘建模各个环节都有一定相似的思路和流程,但是每个领域和场景下的业务知识都不同,需要数据挖掘人员深入到客户现场,多和业务人员沟通交流,

6、多看数据,才能有所把握。对业务数据的理解,我们认为包括 2 个方面:光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/其一是对整体业务流程的理解,比如做贷后违约预测,需要先了解这个业务从开始到结束都有哪些流程,每个流程中都涉及到哪些主体,以及主体之间的关系是怎么样的。其二 ,根据自己理解的业务流程框架,从银行数据仓库中找对应的数据,在找数据过程中,你可能会遇到一个字段出现在多张表中,那么你就需要和数仓人员确认这几张表主要的用途和意义以及所表达的数据粒度,然后一张张表去看数据分布,最终确认哪张表哪个字段是方案所需要的。整个业务数据的理解、分

7、析流程相当繁琐,这也是对数据挖掘人员的考验,需要耐心分析总结,最终才能达到事半功倍的效果。倘若业务理解分析不到位,就无法通过建模分析得出有指导意义的结果。在项目中,模型最终得到一个不错的精度并不代表建模工作完成,接下来需要花费大量时间去解释你的模型,解释每一个变量是如何影响你的模型的,预测出的结果如何一步步追溯到指标。比如模型预测出该企业下一季度违约的可能性比较大,那么就需要去定位违约的原因,是因为过去经常违约,还是因为他在在担保网络中受到与之关联企业风险的传导等等,这些都需要一步步去分析拿到证据。2)多数据源融合及分布式建模众所周知数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限

8、,所以特征工程在整个数据挖掘过程中占据大部分精力和时间。模型融合行内外多维度数据,并基于这些数据提取企业静态和行为特征,并基于大规模分布式图计算引擎从担保网络中提取大量图特征和社区特征,给模型精度带来光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/质的提升。实施过程/解决方案本文模型案例基于 TDH 平台 Discover 进行开发,恒丰银行在此引擎上通过综合使用多种机器学习算法,实现了对客户行为分析、客户标签画像、客户流失预警、风险分析、智能推荐等模型开发。本案例主要包括以下 6 大模块。对公担保贷款主要业务对公担保贷款业务主要涉及客

9、户,担保,贷款以及借据相关信息。企业在向银行借款的时候,银行为了降低风险不直接放款,而是要求借款人找到第三方为其做信用担保,第三方担保可以是担保人也可以是担保公司。首先银行需要和第三方签订担保合同,担保合同形成后,银行和借款人签订贷款合同,然后发放贷款,并产生借据信息。根据业务流程定位模型数据模型数据主要包括三大类,分别为行内数据、人行征信数据、外部数据。行内数据直接描述企业在整个业务流程中的行为以及担保关系的形成,根据以上的业务流程从 CDM(对各个系统的数据按主题进行汇总整理的公共数据模型层,模型需要的数据主要从该层取)获取客户、担保、贷款以及借据相关的所有数据。人行征信数据记录企业以及企

10、业法人等相关的信用信息。外部数据作为补充。企业互联网上面的负面信息,以及企业所在行业的经济趋势对企业是否逾期都会产生一定的影响。数据取出来之后,根据主键进行关联汇总,并对数据光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/进行去噪、去缺省值/异常值等处理,加工成模型标准特征输入表。数据到特征特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好作用的过程。更好的特征意味着只需用简单模型(小数据量复杂模型容易过拟合) 。基于以上数据,如何做数据预处理,从哪些角度提取模型输入特征,如何选择特征,是整个建模过程中比较关键

11、的一步。1.数据预处理首先,由于数据中存在大量的缺失值,需要对缺失值数据进行预处理。对于类别型的变量我们视缺失值为一种特征值进行处理,而对于连续性变量我们一般用均值,中位数替代或者运用 K 近邻方法根据它周围的点来预估。其次,数据中违约客户远远少于未违约的客户,针对类别不平衡问题,我们进行了过采样处理。从业务意义和模型稳定性方面考虑,我们对部分连续变量进行了离散化,离散化主要有两种划分方式:一种是等值划分(按照值域均分) ,另一种是等量划分(按照样本数均分) 。我们对数值类型的特征采用了等量划分的离散化方式:先将每一维特征按照数值大小排序,然后均匀地划分为 10 个区间,即离散化为 110。

12、前面已经对特征进行了离散化,如某个客户某个特征离散化后它的值是5,3,1,2,2,2,2,7,2,可以进一步统计离散特征中 110 出现的次数ni(i=1,2,10),即可得到一个 10 维计数特征。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/基于这 10 维特征训练了 xgboost 分类器,得到一定精度的提高,说明这10 维特征具有不错的判别性。对于无序的变量,我们一般对它进行 OneHot 编码,解决了分类器不能处理类别特征的问题。为了防止异常值对模型的影响,我们对离群值进行了处理;为了统一量纲,对特征进行了归一化等操作。2.

13、特征提取基于以上处理好的数据,我们从多个角度提取特征,其中主要包括以下几类特征。1)基本信息特征定性地反映客户的资历,信用及还款能力,描述了授信企业基本情况。如经济性质,注册资本,信用评级状态,中小企业标志等。2)行为特征根据客户的历史行为判断客户未来违约的可能,企业的历史行为反应了他的习性,而习性一般会延续。行为特征如历史逾期天数、历史逾期次数、历史逾期本金利息等。3)图结构特征描述客户所在担保图的图结构特征,企业所在图中所处的位置对其它节点产生的影响。比如企业在图中的影响度值,中心程度等(如果图中的关键企业破产违约了,可能会对它相关的企业产生一定的影响) 。4)图行为特征描述客户所在担保图

14、中客户的行为特征,企业是否会违约和给他担保的企业质量是密切相关的。比如子图违约率、子图违约天数、子图违约额度等。5)社区行为特征描述客户所在社区中客户的行为特征,人以群分物以类聚,所以社区内的企业一般具有相似的性质。比如客户所在社区的违约率、逾期天数、罚息等。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/3.特征降维与特征选择特征选择是为了踢除原本特征里和结果预测关系不大的特征,而降维是做特征的计算组合构成新特征。前面我们基于原始数据生产了几百维特征,这么多维特征一方面可能会导致维度灾难,另一方面很容易导致过拟合,因此需要做降维处理,常见的降维方法有 PCA、ICA、LDA 等。除了采用降维算法之外,我们也做了特征选择来降低特征维度。特征选择的方法很多,其中包括最大信息系数(MIC) 、皮尔森相关系数(衡量变量间的线性相关性) 、正则化方法(L1, L2) 、基于模型的特征排序方法。比较高效的是最后一种方法,即基于学习模型的特征排序方法,这种方法有一个好处:模型学习的过程和特

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 数据结构与算法

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号