使用分类树评估信用风险

资源描述

《使用分类树评估信用风险》由会员分享，可在线阅读，更多相关《使用分类树评估信用风险（42页珍藏版）》请在金锄头文库上搜索。

1、使用分类树评估信用风险ITELLIN2005-11-29这是 SPSS帮助菜单中个案研究的一个例子。假设银行有一个记载客户取得贷款交易信息的数据库，包括客户偿还或拖欠贷款的记录。使用分类树技术，银行方面可以分析及时还贷和有拖欠行为的客户特征，并能建立模型预测后续的贷款申请者拖欠银行贷款的可能性。信用数据文件名为 tree_credit.sav。一、建立模型分类树过程提供几种不同的方法用来建立树模型。本案例使用的是预设的方法：CHAID 卡方自动交互检验。在计算的每一步中， CHAID 选择与因变量交互作用最强的自变量（预测因子）。如果某些自变量与因变量没有很强的显著性差别，这些自

2、变量的分类将被合并。1. 建立 CHAID 树模型从菜单中选择：选择信用等级做因变量。将所有剩余变量做自变量。（程序将自动排除对最终模型没有显著贡献的变量。）到这一步就可以运行程序产生基本的树模型，但是对最终模型我们打算选择一些附加输出并做一些小的调整。2. 选择分类目标点选因变量下方的Categories 按钮。打开分类对话框，在这里就可以指定感兴趣的目标分类。目标分类自身不影响树模型，但是如果你选择了目标分类，部分输出和选项就可使用。在分类为Bad 的目标复选框中打勾。具有不良信用等级（拖欠贷款）的客户将按感兴趣的目标分类来对待。点击继续。3. 定义的生成标准本例中，我们准备

3、生成一个相当简单的树，所以要提高父结点和子节点的最小数量来限制树的生长。在分类树对话框中点击 Criteria 。在 Minimum Number of Cases组中，父结点处键入 400，子结点处键入 200 。点击继续。4. 选择附加输出在分类树对话框中点击 Output 。出现一个多页对话框，在这里可以选择各种附加输出类型。勾选 Tree 页的 Tree in table format项。然后点击 Plots 页，勾选 Gain 和Index 项。点击继续。注意: 这些图需要为因变量指定目标分类。本例中，直到指定一个或多个目标分类，Plots 页才可以激活。5. 保存预测值保存包含

4、模型预测信息的变量。例如，保存每个个案预测的信用等级，然后与实际信用等级进行比较。在分类树对话框中点击Save按钮。勾选Terminal node number, Predicted value,和 Predicted probabilities。点击继续。在分类树对话框中点击OK 运行该过程。二、模型评估本案例中，模型结果包括：? 提供有关模型信息的表格。? 树形图? 提供模型性能指示的图表。? 将模型的预测变量添加到当前工作的数据文件中。1. 模型汇总表模型汇总表提供有关建立模型的一些信息。? Specifications 部分提供产生树模型设置的信息，包括生成方法为 CHAID

5、，因变量为信用等级，自变量为年龄，收入，信用卡数，教育及汽车贷款。有效性验证为没有，最大树深度是 3，父节点中最小个案是 400，子节点中最小个案是 200。? Results 部分显示在最终模型中选入的自变量为年龄，收入和信用卡数。总节点数为 10，端点数为 6，树的深度（根节点下的树叶数）为 3。有五个自变量被选入，但是最终模型只选中三个。变量教育和汽车贷款对模型没有显著的贡献，所以它们自动地从最终模型中排出。2. 树形图树形图是树模型的图解表示。树模型显示如下：?使用 CHAID方法，收入水平是信用等级的最佳预测因子。? 看低收入那一枝（节点 1），收入水平是与信用等级唯一有显著意义

6、的因子。在这个类别中有 82%银行客户（Bad）拖欠贷款。只有 18%的客户 (Good) 按时还贷。由于节点 1 下面没有子节点，节点 1 就是端点。? 中高收入客户群（节点 2 和节点 3），信用卡数是它的最佳因子。? 节点 4 为有 5 张以上信用卡的中等收入客户群，它还包括另一个预测因子：年龄。年龄在 28 岁以下的 80.8%的客户有不良信用等级，它几乎是 28 岁以上组的不良信用等级数（ 43.7%）的两倍。可以使用Tree Editor 隐藏和显示选择的树枝，改变颜色和字体，依据选择的节点选择个案的子集。要了解更多信息见 Selecting Cases in Nodes 。3.

7、树表如它的名字一样，树表以表格的形式提供大部分实用的树形图信息。对每个节点，表的显示如下：? 因变量在每个分类中个案的数量和百分比。? 因变量的预测分类。在本例中，预测分类标准是按照所在节点的个案数的超过 50%来进行信用等级分类，因为只有两个可能的信用等级，将个案数的百分率低于 50%划归 Bad 组，高于 50%划归 Good 组。如节点 1，不良对良好组的比例是 82.1%对 17.9%，所以节点 1 的预测分类为 Bad。节点2，不良对良好组的比例是 42%对 58%，所以节点 2 的预测分类为 Good。依此类推。? parent node 表示树中每个节点的父节点。注意

8、节点 1低收入节点不是任何节点的父节点。因为它是端点，没有子节点。节点 4，节点 5 的父节点是 2，节点 6，节点 7 的父节点是 3，节点 8，节点 9 的父节点是 4。? 自变量用来划分节点。如节点 1， 2， 3 由收入水平划分，节点4，5，6，7 由信用卡数来划分，节点 8，9 由年龄来划分。?卡方值（因为树是由 CHAID 方法产生），自由度和显著性水平。在很多实际的场合，你可能只对有显著性水平的值感兴趣，在模型中它们的值小于 0.0001 。所在节点的自变量值。如节点 1 为低收入组，节点 2 为中收入组，节点 3 为高收入组。节点 4 为信用卡数多于 5 张，节点 5 为信用卡数少于 5 张。注意：对次序和尺度自变量，可以在树和树表中将它们的范围表示成如 (value1, value2的形式，基本的意思是“大于 value1 并小于等于 value2 。”在这个例子中，收入水平只有三个可能值

展开阅读全文