SPSS Modeler 支持向量机模型评估银行客户信用

资源描述

《SPSS Modeler 支持向量机模型评估银行客户信用》由会员分享，可在线阅读，更多相关《SPSS Modeler 支持向量机模型评估银行客户信用（15页珍藏版）》请在金锄头文库上搜索。

1、Modeler 支持向量机模型评估银行客户信用支持向量机模型评估银行客户信用本文要介绍的预测分析模型是支持向量机模型我们将为大家简要介绍支持向量机模型的理论然后结合 IBM SPSS Modeler 产品详细讲述如何利用支持向量机模型来解决客户的具体商业问题银行如何评估客户信用银行典型案例银行典型案例商业银行个人信用评估就是根据个人信息和借贷记录等历史数据判断个人信用它是保证信贷安全的重要一环但是商业银行用于信用评估的数据往往具有特性不稳定历史样本容量较小指标较多呈明显的非正态分布这些特点导致很难利用一般的统计技术进行有效的评估支持向量机模型简称 SV

2、M 能够很好的处理此类数据进行有效的信用评估本文介绍了 SVM 的基本概念以及 Modeler 中使用 SVM 进行信用评估的基本步骤和方法并对结果进行分析和应用支持向量机模型简介支持向量机模型简介支持向量机 Support Vector Machine 简称 SVM 是一项功能强大的分类和回归技术可最大化模型的预测准确度与其他常用模型不同 SVM 一个优势就是能很好的处理小样本高维数非正态的数据 SVM 的工作原理是将原始数据通过变换映射到高维特征空间这样即使数据不是线性可分也可以对该数据点进行分类之后使用变换后的新数据的进行预测分类例如图 1 中的

3、数据点落到了两个不同的类别中可以用一条曲线分隔这两个类别对数据使用某种数学函数变换后可以用超平面定义这两个类别之间的边界图图 1 数据变换后线性可分示意图数据变换后线性可分示意图用于变换的数学函数称为核函数 IBM SPSS Modeler 中的 SVM 支持下列核函数类型线性多项式径向基函数 RBF Sigmoid 如果数据的线性分隔比较简单则建议使用线性核函数在其他情况下应当使用其他核函数在所有情况下最好尝试使用不同的核函数才能从中找出最佳模型因为每一个函数均使用不同的算法和参数回页首回页首使用使用 IBM SPSS Modeler 支持向量机模型

4、评估客户信支持向量机模型评估客户信用用 IBM SPSS Modeler 中的 SVM 提供了可视化的操作方法具有界面友好操作方便的特点此节介绍如何使用 IBM SPSS Modeler SVM 评估客户信用操作步骤分为创建基本流 Modeler Stream 建立模型测试模型分析结果用不同的核函数建模比较并选择合适的模型运用选定的模型来评估客户信用我们使用 UCI Machine Learning Repository 上公开的商业银行客户信用记录作为数据集进行演示该数据集由 1000 条个人信用记录组成每条记录均包含一组个人信息值其中包括对客户信用的

5、评估结果 1000 条记录保存在 CreditData csv 文件中从 1000 条记录中抽出一部分用于演示用选定的模型评估客户信用将这部分数据保存到 CreditData4Estimate csv 文件中创建基本流创建基本流 Modeler Stream 建立模型建立模型图图 2 基本流建模图基本流建模图基本流如图 2 所示创建步骤如下 1 添加源数据添加源数据选择合适的数据选择合适的数据创建新流命名为 SVM str 从源选项卡中添加一个可变文件节点到 SVM str 从输出选项卡中添加一个表节点到流并将表节点连接到可变文件节点打开

6、可变文件节点导入客户信用数据 CreditData csv 运行表节点显示源文件中数据如图 3 所示数据有 22 个字段 1000 条记录 ID 字段为客户标志符每个客户的信息包含在从 StatusChkAccount 到 Foreigner 的字段中 Class 字段表示信用评级取值为良值 1 或者差值 2 图图 3 源数据图源数据图 2 设置类型设置类型选择用作预测的变量和目标变量选择用作预测的变量和目标变量从字段选项选项卡中添加一个类型节点到 SVM str 并将它连接到可变文件节点之后打开类型节点并单击读取值按钮获得数据集描述

7、如图 4 所示图图 4 源数据类型描述图源数据类型描述图本模型希望预测 Class 的值此字段只有 2 个值即良 1 还是差 2 在类型设置界面中单击 Class 字段的测量列将其改为标志将 Class 的角色设置为目标目标 ID 字段作为个人标识符不会对建模和预测产生影响不会用作预测变量或模型的目标将其角色设置为无无其他字段作为特征字段用作预测变量因此将其角色设置为输入输入 3 添加分区添加分区选择建模的数据和测试模型的数据选择建模的数据和测试模型的数据为了建立模型即训练模型同时测试模型需要把数据集 CreditData csv 分为两

8、部分一部分用于建立模型另一部分用于测试新建模型分区节点通过在源数据表中添加一个字段根据字段的不同取值将数据分区分区节点最多可以将数据分为三部分分别用于训练测试和验证从字段选项选项卡中添加分区节点到流将其连接到类型节点打开分区节点使用默认设置默认分为训练和测试两个分区大小分别 50 选择设置随机种子数表示分区是随机分区的图图 5 分区节点图分区节点图添加表节点并连接到分区节点之后运行表节点如图 6 所示分区字段被加入到表中图图 6 添加分区字段的数据图添加分区字段的数据图 4 添加添加建模建模节点节点

9、建模建模从建模选项卡中添加 SVM 节点并连接到分区节点之后双击 SVM 节点设置属性字段选项卡默认选中使用类型节点设置在模型选项卡中如图 7 左所示选中自定义选项在相邻的文本字段中键入 class rbf 作为模型名称默认选中使用分区数据和为每个分割构建模型流中没有添加分割节点这个选项没有实际作用关于其功能这里不介绍有兴趣的读者可以参考帮助文档在专家选项卡中如图 7 右所示将模式设为专家以获得可靠性内核类型即核函数默认设为 RBF 其他选项使用默认值这些选项是建模参数这里不介绍有兴趣的读者可以参考

10、帮助文档在简单模式下所有选项均为不可设置图图 7 模型设置图模型设置图在分析选项卡上选中计算变量重要性复选框其他两个选项计算原始的趋向得分和计算调整倾向得分默认不选中关于这两个选项功能这里不介绍有兴趣的读者可以参考帮助文档注解选项卡不作额外设置单击运行运行成功表示建模完成创建模型块被添加到流中至此流基本建立完毕如上面图 2 所示测试模型分析结果测试模型分析结果双击建模生成的模型块 class rbf 如图 8 所示在模型选项卡上预测变量重要性图显示了不同变量对预测的影响程度从上到下预测变量的重要程度依次降低其中

11、 StatusChkAccount 和 SavingAccounts 的对预测的影响度最大设置选项卡指定在查看结果时显示的附加字段汇总选项卡显示了分析包含记录数分析准确性字段构建设置训练汇总等信息这两个选项卡的详细功能本文不介绍请参考帮助文档图图 8 模型图模型图模型块 class rbf 之后添加表节点运行表节点使用创建的 class rbf 模型对源数据中数据进行测试获得图 9 所示结果图图 9 训练评估结果图训练评估结果图图 9 的结果中 class rbf 模型创建了两个新字段向右滚动表输出可看到这两个字段表表 1 带表头所有列左对

12、齐的样式带表头所有列左对齐的样式新字新字段名段名描述描述 S Class 由模型预测的 Class 值 SP Class 此预测值的倾向得分即此预测值正确的可能性其值介于 0 0 到 1 0 之间表示预测值的准确程度值越高越说明预测值准确性越高查看上表看到大多数记录的倾向得分 SP Class 列都相当高即预测的准确度相当高但是也存在一些明显的例外情况例如图 9 位于第 98 和 99 行的记录其倾向得分为 0 539 和 0 535 比较这两行的 Class 和 S Class 可以看到此模型对这两行记录做出了不正确的预测因此在实际使

13、用模型预测时选择相信倾向得分大于预设值的预测结果为了统计表中的预测信息添加分析节点并连接到 class rbf 模型块运行分析节点获得预测汇总结果如图 10 左所示根据汇总结果 class rbf 模型对于 1 训练分区预测正确率是 99 59 对于 2 测试分区预测正确率是 71 93 如果选择相信倾向得分大于 0 95 的预测结果那么预测正确率更高添加选择节点将其连接至 class rbf 模型块之后再将分析节点连接至选择节点之后在警告对话框上选择替换在选择节点中设置只包含 SP Class 0 95 的记录再运行分析

14、节点得到图 10 右所示结果可以看到 class rbf 模型对于 2 测试部分的预测正确率达到 81 39 图图 10 模型测试结果图模型测试结果图使用不同的核函数选择最合适模型使用不同的核函数选择最合适模型为了比较不同的核函数创建的模型添加第二个 SVM 建模节点并连接到分区节点之后打开新 SVM 节点在模型选项卡上选择自定义并将 class poly 作为模型名称在专家选项卡上将模式设置为专家将内核类型设置为多项式并单击运行 class poly 模型块被成功创建将 class poly 模型块连接到 class rbf 模型块之后在警告

15、对话框上选择替换将 class poly 模型连接到分析节点在警告对话框上选择替换在 class poly 模型块之后添表节点最终建立的流如图 11 所示我们还可以看到 class rbf 模型块和 class poly 模型块被添加到屏幕右上角的模型选项板图图 11 多核函数建模图多核函数建模图运行连接到 class poly 模型的表节点如图 12 所示为 class poly 模型生成的预测值和倾向得分字段分别命名为 S1 Class 和 SP1 Class 可以对比对每条记录两个模型预测结果图图 12 两模型评估结果图两模型评估结果图为了比较两

16、个模型各自的预测准确度运行分析节点获得图 13 所示结果图图 13 两模型评估分析图两模型评估分析图上图中单独模型下面的比较 S Class 与 Class 表示模型 Class rbf 的预测结果它与上面图 10 左的结果是一致的比较 S1 Class 与 Class 表示 Class poly 模型预测结果该模型对于 487 条 1 训练记录全部预测正确对于 513 条 2 测试记录有 360 条记录预测正确正确率为 70 18 S Class S1 Class 之间的一致性表示对所有的记录两个模型预测结果相同的记录的统计信息对于 1 训练分区两模型对于 485 占训练记录总数 99 59 条记录的预测结果是相同的对于 2 测试分区对 484 占测试记录总数 94 35 条记录预测结果是相同的比较一致性与 class 表示两个模型预测结果相同的记录中分别被正确预测和错误预测的记录数从图 13 中可见对 1 训练分区两模型预测结果相同的 485 条记录中 485 条记录被正确预测 0 条被错误预测对 2 测试

展开阅读全文