数据挖掘讲义完整版

资源描述

《数据挖掘讲义完整版》由会员分享，可在线阅读，更多相关《数据挖掘讲义完整版（111页珍藏版）》请在金锄头文库上搜索。

1、2013年6月3日1软件培训之家软件培训之家软件培训之家软件培训之家激素水平影响因素分析文彤老师文彤老师软件培训之家软件培训之家软件培训之家软件培训之家案例背景介绍2软件培训之家软件培训之家研究背景在某个消化内科的科研项目中，研究者认为某种激素水平可能会对胃癌的发生有一定的作用，因此设计了此项研究，将病人按照临床病理诊断结果分为对照组和试验组（出现病变组）两组，并采集了如下指标：性别：男、女。年龄：除记录实际年龄外，还根据临床研究的习惯，按照 =50 150 自有商品房是 200 自有商品房否 110 收入（年）收入=300,000 270 客户客户1 年龄 31

2、150 自有商品房是 200 收入（年） 250,000 220 结论：接受客户结论：接受客户 570 Cutoff=500 客户客户2 年龄 25 120 自有商品房否 110 收入（年） 50,000 200 结论：拒绝客户结论：拒绝客户 430 2013/6/12 17 完整的信用评分卡建立流程完整的信用评分卡建立流程简化的信用评分卡建立流程简化的信用评分卡建立流程数据集介绍数据集介绍变量名称变量名称变量取值变量取值说明说明年龄 18-71 连续变量收入 0-10,000 连续变量，在数据分布分析时发现其中有一人收入为100,000，远大于其它人，判定为是由于数据录

3、入错误引起的数据异常值，将之修改为10,000。孩子数量 0-23 连续变量家庭人口数 1-25 连续变量在现住址时间 0-360 连续变量，999代表数据缺失在现工作时间 0-336 连续变量，999代表数据缺失住房类型租住，自有，缺失连续变量国籍德国、希腊、土耳其、西班牙、南斯拉夫、意大利、其它欧洲国家、其它非欧洲国家连续变量信用卡类别运通卡、支票账户、欧洲Master卡、我行Visa 卡、它行Visa卡、其它信用卡、无信用卡连续变量是否违约 0，1 目标变量，1代表违约权重 1，30 此数据集为从总体中抽取数据，通过权重变量体现了总体数据中是否违约客户

4、的比例 2013/6/12 18 在在SPSS Modeler中进行信用评分的步骤中进行信用评分的步骤步骤一：步骤一：对输入变量进行分箱；步骤二：步骤二：建立输入变量与目标变量的Logistic回归模型；步骤三：步骤三：根据相关业务参数将Logistic回归模型转化为评分模型；步骤四：步骤四：对模型效果进行检验。步骤一：分箱步骤一：分箱关于分箱（关于分箱（2）连续变量的分箱的重要原则 1.分箱数应当适中，不宜过多和过少。 2.各个分箱内的记录数合理，不应过多或过少。 3.结合目标变量，分箱应该能表现出明显的趋势特征。 4.相邻分箱的目标变量分布差异应尽可能较大。离散变量的分箱

5、分箱过程中的一些重要概念 WOE：证据权重（WOE：Weight of Evidence） IV：信息值（IV：Information Value） 100)“ln(客户占比坏客户占比好WOE niIV1ln)(）“坏”客户占比“好”客户占比（“坏”客户占比“好”客户占比2013/6/12 19 关于分箱（关于分箱（2 2）分箱辅助表格好的分箱与差的分箱 SPSSSPSS ModelerModeler中实现分箱的方法中实现分箱的方法步骤一：在分箱节点中选择步骤一：在分箱节点中选择分箱方法为最优，主管字段分箱方法为最优，主管字段选择为是否违约选择为是否违约步骤二：选择生成步骤二：选

6、择生成-导出导出步骤三：在导出字段中将字步骤三：在导出字段中将字段取值修改为容易识别的形段取值修改为容易识别的形式式分箱结果例示分箱结果例示变量名称变量名称分分箱箱 WOE IV 说说明明年龄分箱年龄分箱 1.=46 95.43 收入分箱收入分箱 1.=2400 9.24 孩子数量分箱孩子数量分箱 1.=1 24.00 在现住址时间分箱在现住址时间分箱 1.=18 8.55 在现工作时间分箱在现工作时间分箱 1.=96 65.41 住房种类住房种类 1.缺失 -1.87 0.008 自有住房违约率高于租住 2.租住 -1.88 3.自有 43.89 国籍国籍 1.意、南、西

7、 81.83 0.026 其中1包括意大利，南斯拉夫和西班牙;2包括土耳其、希腊和德国，不同国籍违约率差别大 2.土、希、德 1.05 3.其它国家 -69.31 信用卡信用卡类型类型 1.欧洲Master卡、它行Visa或支票账户 67.72 0.172 使用不同信用卡类型违约率差别大 2.运通或其它信用卡 0.00 3.无信用卡 -25.86 4.我行Visa卡 -69.31 2013/6/12 20 步骤二：建立步骤二：建立LogisticLogistic回归模型回归模型步骤三：将步骤三：将LogisticLogistic回归模型结果转为评分回归模型结果转为评分信用评分

8、需要满足的三点要求： 1. 将评分控制在一定范围内，例如0-1000分之间（在前面介绍的FICO评分中，美国人的信用评分位于300-850之间）； 2. 在特定分数时，好客户和坏客户具有一定的比例关系（在统计学上有一个专门的统计量优比（odds）来表示这种比例关系，例如希望在评分值为500分时好客户和坏客户的比例为50：1。 3. 评分值增加应该能够反映好客户和坏客户比例关系的变化，例如希望当评分值每增加50分时，odds也增加一倍。业界通行的信用评分取值业界通行的信用评分取值关系关系为了满足以上三条件，需要为了满足以上三条件，需要解方程得到：步骤三：将步骤三：将LogisticLo

9、gistic回归模型结果转为评分回归模型结果转为评分 2013/6/12 21 在在SPSS ModelerSPSS Modeler中生成评分中生成评分变量变量分箱分箱评分评分值值变量变量分箱分箱评分评分值值国籍国籍 1.意、南、西 132 收入 1.=2400 85 孩子数量孩子数量 1.=1 89 信用卡类型 2.运通或其它信用卡 83 年龄年龄 1.=46 137 在现工作时间 2.18-96 81 在现工作时间 3.=96 111 步骤四：模型检验步骤四：模型检验“常规的”模型检验“常规的”模型检验 K K- -S S指标法检验指标法检验 2013/6/12 22 拒

10、绝推断的讨论拒绝推断的讨论保险业欺诈发现保险业欺诈发现欺诈现象遍及商业中各个领域欺诈现象遍及商业中各个领域银行业中的伪造银行卡、办理多张信用卡消费不还、信用卡套现等；证券业中存在的关联交易；企业偷逃税给税收的公平性造成了极大的困扰；电信业中服务提供商的欺诈性收费；保险行业中的虚假索赔。 2013/6/12 23 欺诈发现的三种思路欺诈发现的三种思路比对法基于业务规则比较法基于以下两个基本原则 1. 特征类似的个体应该具有类似的行为特征； 2. 同一个体在一定持续时间内应该表现出相似的行为特征。模型法使用模型发现变量之间的关系或者异常预测类模型细分类模型关联规则模型投

11、保人医疗机构保险公司医疗保险中的三个角色医疗保险中的三个角色该角色是医疗保险的受益者，当他购买了保险后，根据保险条款的情况，他去看病时保险公司会承担一定比例的费用，并且这些费用不需要他去找保险公司去索取，而是自动在交费时加以扣除。该角色帮助投保人治疗疾病或者提供保健，并且在投保人购买了保险时，会由医疗保健机构先垫付保险所覆盖的医疗保健费用，随后医疗机构会向保险公司去索赔以补偿这部分医疗费用。保险公司通过向投保人提供医疗保险获得保费收入，通过受理医疗机构的保险索赔进行支出，两者之间的差额就是它的利润来源。数据情况数据情况数据文件数据文件记

12、录数记录数说明说明 Policy_Holder.sav 400 投保人信息表 Provider.sav 500 医疗保健机构信息表 Claims.sav 9,462 索赔信息表变量名变量名变量含义变量含义 Policy_HolderID 投保人编号 ProgramCode 保险条款 MEDcode 治疗措施编码 Age 年龄 Sex 性别变量名变量名变量含义变量含义 ProviderID 医疗保健机构编号 ProviderType 医疗保健机构大类 ProviderSpecialty 医疗保健机构细类 Location 位置编码变量名变量名变量含义变量含义 ClaimID 索赔编

13、号 ProviderID 医疗保健机构编号 Policy_HolderID 投保人编号 Policy_HolderStatus 投保人状态 ProviderCategoryService 医疗保健机构服务类别 DIAG 诊断 Procedure 处理过程代码 LOS 住院时长 FirstDayOfStay 住院开始时间 LastDayOfStay 住院结束时间 TotalAllowed 保费覆盖额 TotalBilled 帐单金额 TotalPaid 支付金额 PlaceOfService 服务地点 2013/6/12 24 发现保险欺诈的发现保险欺诈的6 6个模型个模型模型1：通过变量间的

14、对比发现疑似欺诈模型2：通过Benford定律发现疑似欺诈模型3：通过对投保人细分发现疑似欺诈模型4：发现医疗保健机构行为模式异常模型5：发现多个医疗保健机构共用投保人信息模型6：发现异常诊断与处理过程模型模型1 1：通过变量间的对比发现疑似欺诈通过变量间的对比发现疑似欺诈线索：从业务逻辑上说，支付金额（保险公司通过医疗保健机构支付给投保人的费用）应小于账单金额（投保人看病的费用），如果在索赔信息表中竟然违反了这种明显的业务逻辑，则可视为是疑似欺诈。线索：如果某一医疗保健机构在同一段时间内为一个病人反复索赔次数过多，则可视为是疑似欺诈。线索：如果某一医疗保健机构的月度

15、索赔支付笔数或索赔支付金额大幅增加，则需要进一步审查确定是否有欺诈现象存在。疑似欺诈报告疑似欺诈报告 2013/6/12 25 模型模型2 2：通过：通过BenfordBenford定律发现疑似欺诈定律发现疑似欺诈 BenfordBenford定律定律 Benford定律由物理学家本福特（Benford）发现。只要数字足够多，数据中的第一位数字并不是在1-9之间均匀分布的，数字1出现的频率要远远高于1/9，达到了30.1%，进一步观察可以发现数字越大，出现的频率越低，最低出现的是数字9，只有4.6%。各个数字在数据中第一位出现的频率如下图所示： BenfordBenford定律定律的应用示例的应用示例根据2011年1月5日统计中国股市各股票流通股本（万股）第一位数字分布中国各县区人口数（根据第五次人口普查数据） 2013/6/12 26 疑似欺诈报告疑似欺诈报告模型模型3 3：通过对投保人细分发现疑似欺诈：通过对投保人细分发现疑似欺诈投保人细分结果投保人细分结果各类群主要指标及类群迁移情况 2001年上半年类群年上半年类群 2001年下半年类群年下半年类群迁移数量迁移数量特征变化特征变化聚类聚类-1 聚类-4 2 支付笔数和支付金额大幅增加聚类聚类-3 聚

展开阅读全文