信用评分卡开发流程报告

上传人:人*** 文档编号:498223914 上传时间:2022-09-28 格式:DOCX 页数:10 大小:59.71KB
返回 下载 相关 举报
信用评分卡开发流程报告_第1页
第1页 / 共10页
信用评分卡开发流程报告_第2页
第2页 / 共10页
信用评分卡开发流程报告_第3页
第3页 / 共10页
信用评分卡开发流程报告_第4页
第4页 / 共10页
信用评分卡开发流程报告_第5页
第5页 / 共10页
点击查看更多>>
资源描述

《信用评分卡开发流程报告》由会员分享,可在线阅读,更多相关《信用评分卡开发流程报告(10页珍藏版)》请在金锄头文库上搜索。

1、信用评分卡开发流告 /评 分 卡 开 发 流 程 文 档一、数据集切分将数据集按照 70%与 30%比例切分为训练集和测试集两部分;二、分别对训练集与测试集进行数据预处理1. 衍生变量:进行衍生的变量1) 未销户信用卡最近6个月平均使用率二未销户信用卡最近6个月平均使用额度/ 未销户信用卡授信总额2) 未销户信用卡已使用率二未销户信用卡已用额度/未销戸信用卡授信总额2. String 变量转换为数值型。1) 性别:男二0 :女二 1;缺失二-1;2) 最髙学历:硕士及以上=5 :本科=4 ;大专二3 ;高中=2 :初中及以T=l :缺失二T:3) 婚姻状况已婚已冇二5 ;已婚未冇=4 :离异二

2、3 :未婚二2 :其他二1 ;缺失二T :4) 现住房情况多套自有=11 :自有=10 ;小产权二9 ;宅基地房二&共同拥有或与父母同住 =7; 与父母同住二6:租借或公司所有二5:租房二4 :自购现无贷款=3: 自购现有贷 款=2:其他二h缺失二5) 单位职务髙层领导=3 ;中层领导二2 :一般员工=1:缺失=-1;6) 单位性质国有企业=4 ;政府机关二3 :微型企业二2 :民营企业二1 ;缺失二7) 手机号码是否一致一致=1 :不一致二0 ;缺失二T :8) 坏客户标签坏客户=1 :好客户二03. 缺失值处理1) 变量初分类:各变量元素个数检查a)当变量元素数值个数二b表示为常量;删除该

3、变量:b )当变量元素为数值且剔除缺失类型后,元素类型二10;归为连续型变量: c)其i也变量归类为类别型变議2) 变量缺失值处理a )对连续型变量:如果缺失值比例大于删除变量;其他变量中缺失值采用- 999999特殊处理,单独归为一类:4 )如果类别变量兀素类型不超过5类,检査单个变量占箱的比例:如果类别中某 一类超过变量整体个数比例90%;删除该变量;5)检查每一组分箱中坏客户比例,如果存在某个箱中坏客户比例为 0,则进行合并;a)合并的原则如下:根据坏客户比例从低到高排序,根据排序将坏客户比 例 为0的组与相邻组合并,直到不存在坏客户比例为 0的组;b)检查是否存在某一类超过变量整体个数

4、比例90%,如果存在,则删除该合并 分组后白勺变崑6)经过以上步骤后得到的类别变屋,计算类别变量的WOE和IV值;2、 连续型变量分箱方法连续型变量二预处理中得到的连续型变量。1)如果数值变量中兀素存在为-999999的,把-999999单独归为一类处理:2)将以上连续型变疑进行卡方分箱,得到分割点,进行初步分箱:分箱原则:最大分箱组数为5组,分箱保证了组内兀素的卡方值差异最小, 进 行分箱合并:3)得到初步分箱组a)检查每一组分箱中坏客户比例是否存在二0的组,如果存在,需要对其进 行合并,直到不存在为止。b) 检查分箱组中,组间所对应的坏客户比例是否单调;如果不单调,根据卡方分箱原则,将分箱

5、组数进行缩减,直到单调。a )检査分箱后某一组超过变量整体个数比例90%,如果存在,则删除该变崑4)经过以上步骤后得至I的类别变量,计算类別变量的WOE和IV值;三、将训练集原数据用WOE值替代;四、训练集单变量及多变量筛选(剔除多重共线性)1、单变量筛选:1) IV值筛选标准:IV ;2、多变量筛选1)计算WOE替代后变量间的相关系数,如果变量间相关系数,比较该组变量IV 值,删除IV值小的变虽::2 )通过对不同变量线性回归得至啲R :,计算VIF值,剔除VIF = 1/(1 - R=)10的变量;五、构建及评估逻辑回归模型1、利用上述步骤筛选得至的变量,构建逻辑回归方程;2、采用后向逐步

6、回归,通过剔除逻辑回归方程P值最不显着的变量(P值V),重 复以上步骤,直至所有变量均显着,或者最后没有可剔除变量。训练集 KSandARforthescorecardinthetestdatasetare57%and变量类别WOEInterceptCofficientWOE*Coff+Intercep/11FactorOffsetScore性别女性别男最鬲学历初中及以下燉高学历大专瑕高学历高中最譎学历本科及缺失及硕士及以上婚姻状况己婚己育婚姻状况未婚婚姻状况其他及离异婚姻状况己婚未育及缺失现住房情况其他现住房情况缺失现住房情况自购现有贷款及共同拥冇或与父母同住 及小产权现住房情况宅星地房及与

7、父母同住及口有及租借或 公司所有及多套自有现住房情况自购现无贷款及祖房单位性质国有企业单位性质微型企业单位性质政府机关单位性质民营企业单位性质缺失本人査询次数统计.BinBinO =2本人査询次数统计-BinBini =3本人査询次数统计-BinBin2 4近6个月累计査询次数BnBinO =S近6个月題计査询次数BnBini = 11Bn近6个月題计査询次数BnBin2 15Bin正在使用的信用卡超额BinO =9使用账户数正在使用的信用卡超额便用 账户数Bini = 12正在使用的信用卡超额便用 账户数Bin2 = 16正在使用的信用卡超额便用 账户数Bin3 24査询未放款伙数BinO

8、= 1査询未放款次数Bini =2査询未放款;火数Bm2=3査询未放秋次数Bin3 4最近1个月内的査询次数 (贷款审批)BinO =2最近1个月内的査询次数 (贷款审批)Bini =27最近1个月内的査询次数 (贷款审批)Bm2 =83最近1个月内的査询次 数(贷款审批)Bin3 11S倍用卡近24个月内正常还 款月数BinBinO =2信用卡近24个月内正常还 款月数BinBini =27信用卡近24个月内正常还 款月数Bin2 =S3信用卡近24个月内正常还 款月数BinBin3 118六测试集数据分箱根据逐步回归模型得到的变量具有显着意义的变量, 对于连续行变量,依据其在训练集的分箱的

9、切点,对上述变量中连续型变量进行分箱操作。对于分类型变量,根据其在训练集的合并规则,对上述变量中分类型变量进行分箱操作。七、根据测试集数据分箱,按照训练集所得的 WOE 进行替代。八、根据所得到的训练集WOE表讣算评分按照公式socre二S -+/ *+/计算每个用户所对应的评分。九. 测试集用户得到的评分进行等频划分根据用户得分的丿I顺序,从低到高将用户评分划分为30组,根据所划分的分组,计算测试集KS二oindexbad19141110101112131415161718192021222324good42474954515254635061466353614961506157575858526353total61616061616063675267516756665268526560606062556856score bin555十、模型的勺结论和感想模型缺陷:1. 模型在对训练集中连续型数据处理有一定缺陷;主要体现在分箱未考虑最小箱占比过小带来的分组随机差异。2、在训练集的测试中,未进行过采样处理,导致测试集好客户累计比例曲线较为近似为直线。感想:山于对评分卡业务及流程不熟悉,在开发过程中方法有较多问题,花了大量的时间在进行方法调整和

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号