不错的Clementine的例子

上传人:第** 文档编号:31219215 上传时间:2018-02-06 格式:DOC 页数:24 大小:4.55MB
返回 下载 相关 举报
不错的Clementine的例子_第1页
第1页 / 共24页
不错的Clementine的例子_第2页
第2页 / 共24页
不错的Clementine的例子_第3页
第3页 / 共24页
不错的Clementine的例子_第4页
第4页 / 共24页
不错的Clementine的例子_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《不错的Clementine的例子》由会员分享,可在线阅读,更多相关《不错的Clementine的例子(24页珍藏版)》请在金锄头文库上搜索。

1、依据 1.1.2 节中提到的“五 C 和 1S 个人信用评级模型” ,我们尝试对前 20 个字段尝试归类,如下表所示:表 3 一 1 样本集合字段归类Character(特征) 信贷期限、信贷历史纪录、贷款目的、贷款款金额、其他分期付款方式、在本银行现有的信贷纪录数Capacity(能力) 现有支票账户、分期付款金额占可支配收入的比率、工作、法律规定需要扶养的人数Capital(资本 ) 储蓄存款账户Collateral(抵押担保) 其他债务人/保证人、资产Condition(环境和条件) 年龄、个人身份和性别Stability(稳定性 ) 现任工作时间、在目前住址居住时间、住房、 电话注册、

2、是否外国国籍 可见,这 20 个字段均为个人信用评价系统中影响个人信用的比较重要的因素。考虑到指标选择的全面性和决策树算法的特性,我们先将这个 20 个字段全部纳入我们即将建立的模型的指标体系,作为样本纪录的特征属性,等待下一步检验处理。有关“好”客户和“差”客户的定义 3,通俗的说, “好”客户就是授信机构愿意为其提供消费信用的客户,授信机构预期这些客户能够按时还本付息;“差”客户则是授信机构预期这些客户不能按期还本付息而不愿意为其提供消费信用。商业银行对于好差客户的评判没有统一的标准,通常情况下是根据在一定的观测期内客户的拖欠还贷的时间来区分。在我们所取得的数据中,银行己经根据自己的内部标

3、准和客户的信贷表现情况将客户分为“好客户”和“差客户”两类,记录于最后一个字段中。因此我们直接将其作为样本纪录的类别属性(Class)。3.2 数据预处理高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤,同时也是数据挖掘中最为耗时和繁琐的过程。因为现实世界中经过初步采集后的数据依然多半是不完整的、有噪声的和不一致的并且可能存在冗余的,所以在获取数据源后,需要对它们进行清洗和转换,使其符合数据挖掘算法的要求,并能够产生最为可靠和准确的结果。数据的不完整性主要体现在样本某些属性存在空缺值。而数据的不一致性则包括字段类型的不一致、字段长度的不一致、实体处理(例如各部门对相同

4、的字段采用不同的输入方式)的不一致等。由于我们所取得的数据集是己经做过某些相关处理筛选的,经观察统计,不存在空缺值和数据不一致性现象,因此我们做的主要工作是对噪声数据的处理和对冗余数据的处理。3.2.1 噪声数据的处理噪声是指一个测量变量中的随机错误或偏差。噪声的存在不仅增加了数据挖掘的难度,而且直接影响到建立的模型的准确性。因此对噪声数据的有效处理是建模前的一项重要准备工作。对噪声数据的检验主要可以通过范围检验、枚举清单、相关检验三种方式来进行。范围检验主要针对连续性数据。该方法检查一个字段内的数据是否在预期合理的范围之类。例如:若年龄字段出现负值或者大于 100 的数值,则可认定为不合理的

5、噪声数据。又如若现有信贷纪录数字段出现远大于其他样本平均值的数值,则认定为噪声数据。枚举清单主要是针对离散性数据。该方法对照数据字段可接受的离散值的清单检验该字段的值。例如:“是否外国国籍 ”字段的值只能是“是” 或者“否” ,若出现其他值,则必为噪声数据。相关检验是将一个字段中的值与另一个字段中的值进行对比。例如:若某个样本的“现任工作时间”字段为“失业” ,则其“工作”字段的值必为“失业/普通员工(非本地常驻居民)” 。在找出噪声数据之后,就要对噪声数据进行处理。对于噪声数据的处理主要有以下几种手段:(l)根据合理性和经验常识人工进行判断修改。(2)先按一定的属性对数据集进行分类,或将具有

6、相同特征的数据聚集起来,然后计算有噪声的记录所属的类中所有该属性值的平均值,以该平均值代替噪声数据。对于离散属性值,直接用包含噪声的纪录所属的类中所有样本中该属性的最常见的值代替噪声数据即可。(3)利用多元回归技术平滑噪声数据。二元线性回归涉及两个变量,可以找出适合两个变量的“最佳”直线,使得一个变量能够预测另一个。多元线性回归则是二元线性回归的扩展,它涉及两个以上的变量,使得变量之间存在“最佳”的多维面,在这个面上,能够利用其他变量进行另一个变量的预测。使用回归技术,找出适合数据的数学方程式,能够帮助消除噪声。由于我们所获得的数据集合大部分的字段取值为离散值,因此我们对噪声的处理以前两种方法

7、为主,以第三种方法辅助。3.2.2 冗余数据的处理冗余数据预处理的另一个重要问题,其目的是除去重复的信息,精简数据集,减少数据挖掘的工作量。主要包括: 处理元组冗余,处理属性冗余。所谓元组,也就是集合中的纪录。一个元组也就是一条记录。元组冗余是指对于同一数据集,存在两条或多条相同的记录。我们利用计算机程序对样本数据集合进行检验,未发现元组冗余现象。属性冗余是指数据样本中存在多余的属性或者属性值。对冗余属性的处理可以使用相关性分析。相关分析是研究变量间密切程度的一种常用统计方法。线性相关分析研究两个变量间线性关系的强弱程度和方向。相关系数 r 是描述这种线性关系强弱程度和方向的统计量。其中,n

8、是元组个数, 和 分别是 A 和 B 的平均值, 分别是 A 和 B 的标准差。如果 ,则表明 A 和 B 是正相关的,该值越大,一个属性蕴涵另一个的可能性越大。相关系数越接近于 1 说明 A 和 B 存在的相关性就越大,这两个属性有一个相对来说就是冗余的。如果 ,说明 A 和 B 没有相关性。 说明这两个属性是负相关的。经过对 20 个特征属性的相关性检测,我们没有发现明显的正相关或者负相关现象,因此暂时不需要去除任何特征属性。处理属性冗余还包括对冗余属性值的合并。这主要是针对离散属性进行,大致步骤如下:先根据属性的不同取值将样本数据集合分组,有几个离散值就分为几组。然后统计各个分组中样本的

9、数量和好差客户数量之比。最后根据以下准则合并属性值。(1)若某些分组好差客户数量之比十分接近,则可以考虑将这些分组的属性值合并。(2)若某些分组的样本数量相对于该属性的其他分组过少,则直接将该分组的属性值合并到其他相近分组的属性值中。例如:在样本数据集合中,我们发现“个人身份和性别”字段中,取值为“单身女性”的样本数量只有 5 个,因此我们将其与属性值“女性:离婚/ 结婚”合并,形成新的“女:单身 /结婚/离婚”属性值。这样, “个人身份和性别”字段的取值个数就由原来的 5 个减少为 4 个。3.2.3 数据变换与计算机存储在进行过以上对样本数据集合的处理之后,我们为每个字段编号,并且将字段的

10、每个取值转化为“字母+数字”形式的示意字符串存储于计算机之中。最终得到的用于建模的样本数据集合相关信息如下表所示:表 3 一 2 经过处理后的样本数据集合字段信息字段编号字段名称 类型 取值 取值说明C1 现有支票 离散 All,A12A13,A14All:透支A12:=200DM 顺薪时间=l 年A14:没有支票账户C2 信贷期限(月) 连续 4,72C3 信贷历史纪录 离散 A30,A31,A32,A33, A34A30:无贷款纪录/所有贷款均按时还款A31:在该银行的贷款均按时还款A32:到目前为止现有的贷款均按时还款A33:曾经逾期还款A34:危险账户或者其他危险信用记录存在( 不在本

11、银行)C4 贷款目的 离散 A40,A41,A42,A43,A44,A45,A46,A48,A40:车 (新)A41:车 (二手)A42:家具 /设备A43:电器A44:家庭用具A45:修理A46:教育A48:技能培训A49,A410 A49:商业目的A410:其他C5 贷款金额 连续 250,18424C6 储蓄存款账户 离散 A61,A62,A63,A64,A65A61:=100DM AND =500DM AND=1000DMA65:不明 /无储蓄账户C7 现任工作的时间离散 A71,A72,A73,A74,A75A71:失业A72:=1 年 AND 二 4 年 AND=7 年C8 分期付

12、款金额占可支配收入的比率离散 A8l,A82,A83,A84A81:=10%AND20%AND40%C9 个人身份和性别离散 A9l,A92,A93,A94A9l:男:离婚/分居A92:女 :单身/结婚/ 离婚A93:男 :单身A 94:男: 结婚C10 其他债务人/ 保证人离散 A101,A102,A103A101:没有A102:联合中请者A103:保证人C11 在目前住址居住时间离散 A11,A112,A113,A114Al1:=10 年All2:=6 年All3:=2 年All4:COST(B)以减少 A 类错误。为了确定最佳的成本矩阵,我们采取多次试验比较结果的方法。在其他模型参数均为

13、默认值的前提下,我们将 COST(B)固定为 1,把 COST(A)设定为大于等于 1 的一个值,并且不断的提高它,进行多次试验,建立不同的决策树模型,根据其对训练样本和测试样本分类预测结果挑选 COST(A)的最佳值。挑选的标准如下:(l)对训练样本和测试样本,总错误率不能明显高于 COST(A)取其他值时的模型,并且总错误率越低越好。(2)在总错误率达到标准的前提下,A 类错误率越低越好。(3)当对训练样本的分类错误率相差不是很多时,优先考虑对测试样本的错误分类率,选择对测试样本表现较好的模型的 COST(A)。表 3-6 COST(A)取不同值时决策树模型的分类错误率COST(A) 1

14、2 3 4 5总错误率(%) 14.64 14.52 15.14 25.41 25.66错误率(%) 36.1 11.62 2.1 1.66 1.66训练样本B 类/错误率(%) 5.37 20.79 20.79 35.66 56.3总错误率(%) 31.84 30.35 39.8 41.79 43.28A 类/错误率(%) 71.2 32.2 40.68 28.81 30.5测试样本B 类/错误率(%) 15.5 29.58 39.44 47.18 48.6从表 3-6 中的数据可以看出,随着 COST(A)的不断增大,无论是对训练样本,还是对测试样本中,模型的总错误率是不断上升的,而 A

15、类错误率却呈现出下降的趋势。虽然个别数据会出现异常波动现象,但这并不影响数据整体变化的趋势。这说明通过对 cosT(A)的设定的确能减少 A 类错误发生的概率,不过是以总错误率的增加为代价的。接下来我们依据建模目标和选择标准,通过分析比较,找出 COST(A)的最佳值。(l)当 COST(A)3 时,模型的错误率明显偏大,对训练样本的总错误率超过 25%,比COST(A)=2 时高出了 10%以上; 对测试样本的总错误率超过 40%,比 COST(A)=2 时高出了近 11%以上。这显然不符合我们的选择标准。因此将 COST(A)设置为大于 3 的值都是不适合的。(2)比较 COST(A)分别

16、为 l、2 、3 时的情况,很明显当 COST(A)=2 时,不仅总错误率最小,而且 A 类错误率也最小。因此 COST(A)=2 是相对比较合适选择。由此可以到的建立决策树模型的成本矩阵:预测类别C21 1.0(好客户) 2.0(差客户)1.0(好客户) 2.0(差客户) 3.3.4 剪枝程度的选取剪枝是一种克服噪声的技术,它有助于提高决策树对新数据的准确分类能力,同时能使决策树得到简化,使其更容易理解,加快分类速度。 “欠剪枝”会造成决策树过于复杂,比并且对噪声过于敏感,降低对新数据的预测能力;而“过度剪枝”则会造成决策树对训练样本的拟合程度不够,降低分类的精度。因此选择合适的剪枝程度对构建一个合理高效的决策树模型起着非常重要的作用。这一点在实际问题的处理中显得更为重要。在第二章已经提到过,C4.5/C5.0 方法中,对决策树的剪枝程度是通过 CF 值来控制的。而在 SPSS Clementine 软件的 C5.0 模型中是

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号