数据挖掘讲义完整版

上传人:子 文档编号:47262417 上传时间:2018-07-01 格式:PDF 页数:111 大小:6.33MB
返回 下载 相关 举报
数据挖掘讲义完整版_第1页
第1页 / 共111页
数据挖掘讲义完整版_第2页
第2页 / 共111页
数据挖掘讲义完整版_第3页
第3页 / 共111页
数据挖掘讲义完整版_第4页
第4页 / 共111页
数据挖掘讲义完整版_第5页
第5页 / 共111页
点击查看更多>>
资源描述

《数据挖掘讲义完整版》由会员分享,可在线阅读,更多相关《数据挖掘讲义完整版(111页珍藏版)》请在金锄头文库上搜索。

1、2013年6月3日1软件培训之家软件培训之家 软件培训之家软件培训之家 激素水平影响因素分析文彤老师文彤老师软件培训之家软件培训之家 软件培训之家软件培训之家 案例背景介绍2软件培训之家软件培训之家 研究背景 在某个消化内科的科研项目中,研究者认为某种激素 水平可能会对胃癌的发生有一定的作用,因此设计了 此项研究,将病人按照临床病理诊断结果分为对照组 和试验组(出现病变组)两组,并采集了如下指标: 性别:男、女。 年龄:除记录实际年龄外,还根据临床研究的习惯,按照 =50 150 自有商品房 是 200 自有商品房 否 110 收入(年) 收入=300,000 270 客户客户1 年龄 31

2、150 自有商品房 是 200 收入(年) 250,000 220 结论:接受客户结论:接受客户 570 Cutoff=500 客户客户2 年龄 25 120 自有商品房 否 110 收入(年) 50,000 200 结论:拒绝客户结论:拒绝客户 430 2013/6/12 17 完整的信用评分卡建立流程完整的信用评分卡建立流程 简化的信用评分卡建立流程简化的信用评分卡建立流程 数据集介绍数据集介绍 变量名称变量名称 变量取值变量取值 说明说明 年龄 18-71 连续变量 收入 0-10,000 连续变量,在数据分布分析时发现其中 有一人收入为100,000,远大于其它人, 判定为是由于数据录

3、入错误引起的数据 异常值,将之修改为10,000。 孩子数量 0-23 连续变量 家庭人口数 1-25 连续变量 在现住址时间 0-360 连续变量,999代表数据缺失 在现工作时间 0-336 连续变量,999代表数据缺失 住房类型 租住,自有,缺失 连续变量 国籍 德国、希腊、土耳其、西班牙、南斯拉夫、意 大利、其它欧洲国家、其它非欧洲国家 连续变量 信用卡类别 运通卡、支票账户、欧洲Master卡、我行Visa 卡、它行Visa卡、其它信用卡、无信用卡 连续变量 是否违约 0,1 目标变量,1代表违约 权重 1,30 此数据集为从总体中抽取数据,通过权 重变量体现了总体数据中是否违约客户

4、 的比例 2013/6/12 18 在在SPSS Modeler中进行信用评分的步骤中进行信用评分的步骤 步骤一:步骤一:对输入变量进行分箱; 步骤二:步骤二:建立输入变量与目标变量的Logistic回归模型; 步骤三:步骤三:根据相关业务参数将Logistic回归模型转化为评分模型; 步骤四:步骤四:对模型效果进行检验。 步骤一:分箱步骤一:分箱 关于分箱(关于分箱(2) 连续变量的分箱的重要原则 1.分箱数应当适中,不宜过多和过少。 2.各个分箱内的记录数合理,不应过多或过少。 3.结合目标变量,分箱应该能表现出明显的趋势特征。 4.相邻分箱的目标变量分布差异应尽可能较大。 离散变量的分箱

5、 分箱过程中的一些重要概念 WOE:证据权重(WOE:Weight of Evidence) IV:信息值(IV:Information Value) 100)“ln(客户占比坏客户占比好WOE niIV1ln)()“坏”客户占比“好”客户占比(“坏”客户占比“好”客户占比2013/6/12 19 关于分箱(关于分箱(2 2) 分箱辅助表格 好的分箱与差的分箱 SPSSSPSS ModelerModeler中实现分箱的方法中实现分箱的方法 步骤一:在分箱节点中选择步骤一:在分箱节点中选择 分箱方法为最优,主管字段分箱方法为最优,主管字段 选择为是否违约选择为是否违约 步骤二:选择生成步骤二:选

6、择生成-导出导出 步骤三:在导出字段中将字步骤三:在导出字段中将字 段取值修改为容易识别的形段取值修改为容易识别的形 式式 分箱结果例示分箱结果例示 变量名称变量名称 分分 箱箱 WOE IV 说说 明明 年龄分箱年龄分箱 1.=46 95.43 收入分箱收入分箱 1.=2400 9.24 孩子数量分箱孩子数量分箱 1.=1 24.00 在现住址时间分箱在现住址时间分箱 1.=18 8.55 在现工作时间分箱在现工作时间分箱 1.=96 65.41 住房种类住房种类 1.缺失 -1.87 0.008 自有住房违约率高 于租住 2.租住 -1.88 3.自有 43.89 国籍国籍 1.意、南、西

7、 81.83 0.026 其中1包括意大利, 南斯拉夫和西班牙;2包 括土耳其、希腊和德国, 不同国籍违约率差别大 2.土、希、德 1.05 3.其它国家 -69.31 信用卡信用卡 类型类型 1.欧洲Master卡、 它行Visa或支票账户 67.72 0.172 使用不同信用卡类 型违约率差别大 2.运通或其它信用 卡 0.00 3.无信用卡 -25.86 4.我行Visa卡 -69.31 2013/6/12 20 步骤二:建立步骤二:建立LogisticLogistic回归模型回归模型 步骤三:将步骤三:将LogisticLogistic回归模型结果转为评分回归模型结果转为评分 信用评分

8、需要满足的三点要求: 1. 将评分控制在一定范围内,例如0-1000分之间(在前面介绍的FICO评分中,美国人的信用评分位于300-850之间); 2. 在特定分数时,好客户和坏客户具有一定的比例关系(在统计学上有一个专门的统计量优比(odds)来表示这种比例关 系,例如希望在评分值为500分时好客户和坏客户的比例为50:1。 3. 评分值增加应该能够反映好客户和坏客户比例关系的变化,例如希望当评分值每增加50分时,odds也增加一倍。 业界通行的信用评分取值业界通行的信用评分取值关系关系 为了满足以上三条件,需要为了满足以上三条件,需要 解方程得到: 步骤三:将步骤三:将LogisticLo

9、gistic回归模型结果转为评分回归模型结果转为评分 2013/6/12 21 在在SPSS ModelerSPSS Modeler中生成评分中生成评分 变量变量 分箱分箱 评分评分 值值 变量变量 分箱分箱 评分评分 值值 国籍国籍 1.意、南、西 132 收入 1.=2400 85 孩子数量孩子数量 1.=1 89 信用卡类型 2.运通或其它信用卡 83 年龄年龄 1.=46 137 在现工作时间 2.18-96 81 在现工作时间 3.=96 111 步骤四:模型检验步骤四:模型检验“常规的”模型检验“常规的”模型检验 K K- -S S指标法检验指标法检验 2013/6/12 22 拒

10、绝推断的讨论拒绝推断的讨论 保险业欺诈发现保险业欺诈发现 欺诈现象遍及商业中各个领域欺诈现象遍及商业中各个领域 银行业中的伪造银行卡、办理多张信用卡消费不还、信用卡套现等; 证券业中存在的关联交易; 企业偷逃税给税收的公平性造成了极大的困扰; 电信业中服务提供商的欺诈性收费; 保险行业中的虚假索赔。 2013/6/12 23 欺诈发现的三种思路欺诈发现的三种思路 比对法基于业务规则 比较法基于以下两个基本原则 1. 特征类似的个体应该具有类似的行为特征; 2. 同一个体在一定持续时间内应该表现出相似的行为特征。 模型法使用模型发现变量之间的关系或者异常 预测类模型 细分类模型 关联规则模型 投

11、保人 医疗 机构 保险公司 医疗保险中的三个角色医疗保险中的三个角色 该角色是医疗保险的受 益者,当他购买了保险 后,根据保险条款的情 况,他去看病时保险公 司会承担一定比例的费 用,并且这些费用不需 要他去找保险公司去索 取,而是自动在交费时 加以扣除。 该角色帮助投保人治疗疾 病或者提供保健,并且在 投保人购买了保险时,会 由医疗保健机构先垫付保 险所覆盖的医疗保健费用, 随后医疗机构会向保险公 司去索赔以补偿这部分医 疗费用。 保险公司通过向投保人提 供医疗保险获得保费收入, 通过受理医疗机构的保险 索赔进行支出,两者之间 的差额就是它的利润来源。 数据情况数据情况 数据文件数据文件 记

12、录数记录数 说明说明 Policy_Holder.sav 400 投保人信息表 Provider.sav 500 医疗保健机构信息表 Claims.sav 9,462 索赔信息表 变量名变量名 变量含义变量含义 Policy_HolderID 投保人编号 ProgramCode 保险条款 MEDcode 治疗措施编码 Age 年龄 Sex 性别 变量名变量名 变量含义变量含义 ProviderID 医疗保健机构编号 ProviderType 医疗保健机构大类 ProviderSpecialty 医疗保健机构细类 Location 位置编码 变量名变量名 变量含义变量含义 ClaimID 索赔编

13、号 ProviderID 医疗保健机构编号 Policy_HolderID 投保人编号 Policy_HolderStatus 投保人状态 ProviderCategoryService 医疗保健机构服务类别 DIAG 诊断 Procedure 处理过程代码 LOS 住院时长 FirstDayOfStay 住院开始时间 LastDayOfStay 住院结束时间 TotalAllowed 保费覆盖额 TotalBilled 帐单金额 TotalPaid 支付金额 PlaceOfService 服务地点 2013/6/12 24 发现保险欺诈的发现保险欺诈的6 6个模型个模型 模型1:通过变量间的

14、对比发现疑似欺诈 模型2:通过Benford定律发现疑似欺诈 模型3:通过对投保人细分发现疑似欺诈 模型4:发现医疗保健机构行为模式异常 模型5:发现多个医疗保健机构共用投保人信息 模型6: 发现异常诊断与处理过程 模型模型1 1:通过变量间的对比发现疑似欺诈通过变量间的对比发现疑似欺诈 线索:从业务逻辑上说,支付金额(保险公司通过医疗保健机构支付给投保人的费用) 应小于账单金额(投保人看病的费用),如果在索赔信息表中竟然违反了这种明显的业务 逻辑,则可视为是疑似欺诈。 线索:如果某一医疗保健机构在同一段时间内为一个病人反复索赔次数过多,则可视为 是疑似欺诈。 线索:如果某一医疗保健机构的月度

15、索赔支付笔数或索赔支付金额大幅增加,则需要进 一步审查确定是否有欺诈现象存在。 疑似欺诈报告疑似欺诈报告 2013/6/12 25 模型模型2 2:通过:通过BenfordBenford定律发现疑似欺诈定律发现疑似欺诈 BenfordBenford定律定律 Benford定律由物理学家本福特(Benford)发现。只要数字足够 多,数据中的第一位数字并不是在1-9之间均匀分布的,数字1出 现的频率要远远高于1/9,达到了30.1%,进一步观察可以发现数 字越大,出现的频率越低,最低出现的是数字9,只有4.6%。各个 数字在数据中第一位出现的频率如下图所示: BenfordBenford定律定律的应用示例的应用示例 根据2011年1月5日统计中国股市各股票流通股本(万股)第一位数字分布 中国各县区人口数(根据第五次人口普查数据) 2013/6/12 26 疑似欺诈报告疑似欺诈报告 模型模型3 3:通过对投保人细分发现疑似欺诈:通过对投保人细分发现疑似欺诈 投保人细分结果投保人细分结果 各类群主要指标及类群迁移情况 2001年上半年类群年上半年类群 2001年下半年类群年下半年类群 迁移数量迁移数量 特征变化特征变化 聚类聚类-1 聚类-4 2 支付笔数和支付金额大幅增加 聚类聚类-3 聚

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号