基于融360数据的模型构建及用户贷款审批结果预测

资源描述

《基于融360数据的模型构建及用户贷款审批结果预测》由会员分享，可在线阅读，更多相关《基于融360数据的模型构建及用户贷款审批结果预测（30页珍藏版）》请在金锄头文库上搜索。

1、数据挖掘课程论文基于融360数据的模型构建及用户贷款审批结果预测XXXX摘要本文的主要工作是运用数据挖掘的相关技术对申请贷款的客户的大量数据进行数据挖掘，发现隐藏在大量数据中的隐含模式，最终得到风险评估模型。本文的内容主要分为数据获取与探查、数据预处理、模型建立和结果分析与应用四个部分。在模型建立的过程中使用了SAS企业数据挖掘模块，基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮助金融机构提高对贷款信用风险的控制能力。关键词：SAS 分类技术数据挖掘预测贷款风险评估目录：1.绪论31.1项目背景31.2文献综述32.数据获取与探查52

2、.1数据获取52.2数据简介52.3字段说明62.4数据探查93.数据处理与建模93.1数据预处理93.2数据建模过程决策树163.3数据建模过程神经网络183.4数据建模过程回归203.5最佳模型选择214.结果分析与应用225.项目评估与收获275.1项目改进275.2收获28参考文献281.绪论1.1项目背景金融是现代经济的核心,各类金融机构则是现代金融的支柱。各类金融机构在社会经济发展过程中, 发挥着筹集融通资金、引导资产流向、提高资金运用效率和调节社会总需求的作用。中国加入WTO后, 中外金融机构的竞争日益激烈, 中国商业银行必须加快改革步伐, 尽快打造自己的核心竞争力。但是中国金融

3、机构的信贷资产质量较差, 不良贷款的规模大、比例高, 严重阻碍中国金融业的发展。有效控制不良贷款信用风险已经成为中国金融机构面对的主要课题。1.2文献综述目前国际银行业对不良贷款信用风险评估的方法主要采用的是古典分析法和多元统计法 1-2 。古典分析法是指银行经营者依赖一批训练有素的专家的主观判断对贷款人进行信用分析。多元统计分析的基本思想是根据历史累积样本建立数学模型, 并对新样本发生某种事件的可能性进行预测的方法,具体包括线性概率模型、LOGIT法、PROBIT法以及判别分析法(MDA) 1 。巴塞尔委员会于2001 年1月公布了新巴塞尔资本协议草案, 新协议给出了两种计量信用风险的方法,

4、即标准法和内部评级法(IRB), IRB法对标准法中的风险加权系数进行了修正。新协议允许银行使用内部评级方法, 使新协议的监管规则有一定的灵活性。但目前, 金融界使用最多的两个信用风险评估模型是信用度量制(Credit Metrics)模型和KMV模型。Credit Metrics是J.P. Morgan于1997年开发的一种基于VAR方法的信贷风险管理模型 3 。所谓VAR就是衡量一项资产或者负债在一定时间内、在一定的置信水平下其价值的最大损益额。Credit Metrics是一种盯市(MTM)模型, 认为如果信用资产的信用等级发生了变化, 就产生了信用损失的可能性, 这种损失是多状态的,

5、不只是违约和不违约两种状态。KMV模型是KMV公司利用期权定价原理, 提出了以预期违约频率为核心的信用风险管理模型。KMV模型将资产的状态分为违约和不违约两种, 信用损失只发生在违约的时候。而且KMV模型有一个核心的假设, 就是当公司的资产价值下降到一定程度之后, 公司就会对其债务违约。由于受样本数量限制, 国内已有学者对信用风险评估方法进行研究, 着重研究某一具体方法在信用风险评估中的应用。王春峰等 4-7 运用线性判别法、LOGIT法、遗传规划模型、神经网络模型, 以及距离判别法与神经网络方法相结合的组合预测法对信用风险评估方法作了研究。施锡铨等 8 运用线性多元判别方法对上市企业的信用

6、风险评估进行了研究, 得出评价上市企业信用风险水平的线性判别模型。以上所述方法虽然被广泛应用, 但是它们只是针对某一方面如财务, 进行分析建模, 不能够充分利用有关客户和信贷产品的大量且全面的信息。在信贷风险评估中, 对信用风险的评价, 不仅要考虑贷款者的财务能力, 还要考虑贷款者所需求产品的信息等各方面因素, 仅靠单一指标的评价体系不足以对信用风险予以充分揭示。因此, 研究如何从贷款样本数据中挖掘更丰富的信用信息, 建立更完备的信用风险评估模型将成为一种必然。本文使用了SAS企业数据挖掘模块，基于决策树、回归和神经网络的方法, 充分利用已有数据建立模型, 对申请贷款客户进行科学归类, 从而帮

7、助金融机构提高对贷款信用风险的控制能力。2.数据获取与探查2.1数据获取本文的实验数据获取于数据堂，来源于融360。融360是中国最大的网络贷款平台，平台的一端是数亿的有借款需求的小微企业和个人消费者，另一端是数万的有贷款资金的金融机构（银行、小贷、担保、典当等）和数百万的金融产品，平台通过搜索和推荐服务来撮合借款用户和贷款。通常，用户进入平台后，会通过搜索和推荐服务找到合适的贷款产品，填写自己的个人基本资料，最终提交贷款订单。金融机构通过平台收到订单后，对用户资质进行风控审核，最终决定是否通过用户的订单。2.2数据简介数据包含了user, product, quality和order四张表，

8、下面结合业务流程解释一下四个数据的产生过程。第一步：用户访问融360网站搜索合适的贷款产品，这就产生了user数据，它包含了用户在网站的点击、搜索和下单记录，这里面的date字段记录了是哪一天；第二步：用户在提供的贷款产品中搜索符合自己需求的，在些产品保存在product数据中，包含了产品的申请金额、期限、申请所需的材料等信息；第三步：找到合适产品的用户会在线填写申请，这部分数据保存在quality数据中，包含了用户的年龄、性别、职业、收入等信息；第四步：把用户订单提交给相应的金融机构，金融机构在进行风控审核后会决定是否通过用户的订单，这部分数据保存在order数据中，其中包含用户与其申请的产

9、品编号、订单的申请金额和期限等基本信息以及订单是否审核通过。具体每表的说明如下：order_train.txt：用于训练的订单数据product_final.txt：产品相关数据，包含训练集和测试集出现的所有产品quality_final.txt：用户申请信息相关数据，包含训练集和测试集出现的所有用户user_final.txt：用户访问信息相关数据，包含训练集和测试集出现的所有用户order_test_no_label：用于测试的订单数据，与训练数据相比缺少最终结果标签。2.3字段说明user表变量说明user_id用户idpv总pvpv_inde x_loan：贷款首页PVpv_apply

10、_total申请次数pv_ask问答页Pvpv_calculator计算器页PVorder_count_loan贷款下单量pv_daikuan贷款总PVpv_credit信用卡总PVpv_search_daikuan搜索页pv_detail_daikuan贷款详情页PVdate不同日期product表变量说明product_id产品idcity_id城市idbank_id产品所属机构idproduct_type产品类型guarantee_type产品担保类型loan_term_min最短期限loan_term_max最长期限loan_term_type期限类型decision_cycle审批时

11、间loan_cycle放款时间repayment_type还款方式loan_quota_min最小额度loan_quota_max最大额interest_rate_type利率类型guarantee_required是否必须有担保quality表变量说明user_id用户idcity_id城市idapplication_type申请类型application_term申请期限application_limit申请金额op_type职业类型col_type房产类型user_loan_experience两年内征信情况user_has_car是否有车user_social_security缴纳社保

12、年份qid77是否有公积金cash_receipts现金收入user_income_by_card打卡收入user_work_period工作年限user_age用户年龄company_type公司类型col_value房产价值com_op_period经营年限com_month_flow月流水qid123文化程度qid122婚姻状况qid135公司规模qid139居住类型qid93是否办过营业执照qid57能提供流水数order表变量说明user_id用户idproduct_id产品iddate不同日期term申请期限limit申请金额Result0表示未被批准，1表示被批准2.4数据探查我

13、们利用SAS EM观察到以下有关各个变量的基本统计指标的异常情况：偏度偏大（5）的有：loan_term_max,loan_quota_min,loan_quota_max,limit,application_term,application_limit.缺失值过多（50%）的有：user_age,qid93,qid78,qid135,qid133,qid123,qid122,col_has_morgage取值过于单一且集中的有：term,pv,loan_term_max,loan_quota_min,loan_quota_max,limit,fangkuan_num,decesion_cyc

14、le,apply_num3.数据处理与建模3.1数据预处理3.1.1导入EM之前的处理在将数据导入EM之前，先将四张表的数据整合到了一起，这里使用的是链接的方法，具体语句如下：在这里使用了DISTINCT，是为了将重复数据去除。为了观察数据，先将数据导入EM中进行分析，使用INSIGHT节点，发现TOTAL一共含有79万多条记录，100多个字段。通过INPUT发现，许多字段的缺失值比例已经达到60%以上，有的甚至超过了95%，达到了100%。这样的字段是毫无意义的，所以我们在后续的处理中可以直接REJECTED。另外，通过之前的观察发现，有些字段之间是有关联的，比如说 EARLY_REPAY

15、MENT字段和PENALTY字段，前者代表是否可以提前还款，后者代表提前还款是否需要交纳违约金，对于后者，如果前者为0或者缺失，那么后者也就自然为缺失值，造成缺失值比例升高，同时，我们也注意到，如果采用后面的REPLACEMENT节点，使用的方法也是会产生歧义，因为EARLY_REPAYMENT字段为0的时候，PENALTY字段本身就是缺失的，而使用REPLACEMENT节点反而会导致错误的结果。所以在此我们通过建立一个新的字段EARLY_REPAY来代替两个字段的含义。具体语句如下：/*去除无意义的字段PROC SQL;TITLESELECTION;CREATE TABLE DATA.TOTAL3 AS SELE

展开阅读全文