基于最小二乘支持向量机集成模型的信用评价

资源描述

《基于最小二乘支持向量机集成模型的信用评价》由会员分享，可在线阅读，更多相关《基于最小二乘支持向量机集成模型的信用评价（11页珍藏版）》请在金锄头文库上搜索。

1、基于最小二乘支持向量机集成模型的信用评价关键词：信誉、得分支持矢量机器、总体模型摘要：由于最近的金融危机以及巴塞尔新资本协议的监管问题，信贷风险评估已经成为金融风险管理领域最重要的课题之一。在各种金融机构中，大量的定量信用评分模型被引用来评估顾客的信誉风险。尽管实验已经证明单个支持向量机（SVM）具有很好的性能，但是一个带有固定的实验样本数据和参数设置的单一分类器可能会有某种形式的归纳偏差。而减少这种偏差的一种有效的方法就是集成模型。在本文的研究中，将为读者介绍一种基于合奏模式的最小二乘支持向量机（LSSVM）的总体模型，这种模型最终也将服务于信誉得分领域，提出信用评分。这种模型通过测试两个

2、真实数据库，结果表明集成模型策略能够在一定程度上提高分类性能，并有效地帮助构建信誉评分模型。1.介绍信贷风险评估已经逐渐成为金融机构的重要领域，在近期的金融危机中，由于顾客拖欠贷款的事例逐渐增多，许多金融机构遭受巨大损失。在美国，1997年官方信誉发行人减少发行27.19亿债券来弥补损失，而这个数字到2006年已经达到31.91亿（HSN咨询股份有限公司，2007年）。此外，由于顾客拖欠贷款，近期的次贷危机也使美国的一些公司损失数亿美元。然而，在这个持续膨胀的信誉市场上，金融机构又不能通过拒绝所有的顾客来避免信贷危机。因此，在信贷市场，重建有效的信贷风险评估体系已经成为金融机构获得竞争优势的决

3、定性因素，这能够帮助他们接受信用良好的顾客，拒绝非信用良好的顾客，从而减少损失。很明显，机构需要作出明确的决策支持来决定是否接受顾客的信誉服务，随着数字精确度的发展，甚至是一个百分数的小数部分都能转换成重要的数据，而这足以拯救整个储蓄信贷行业（Thomas，Edelman，和Crook，2002年）。运用信用评分是帮助贷款方决定是否接受顾客的最为广泛的技术，信用评分的主要思想是根据申请者在申请表或者信贷机构记录上的特征的来计算申请人的违约概率的，这些记录特征是通过以过去的申请者信息建立的一定量模型得到的。来自于不同学科的定量分析方法都已经用于建立信用评分模型，例如线性判别分析、线性回归、决策树

4、、数据的网络分析、来自于人工智能的矢量支持机器，还有一些其他的混合方法。支持向量机方法最早由Vapnic提出，并已经成功应用于一系列的现实问题，比如说笔迹的手写数字辨别、文本分类、说话人身份鉴定等等。在大部分的这些应用中，SVM的泛华性能和匹配程度优于其他竞争的方法。为了解决信誉评分的问题，Baesens研究了各种不同国家的艺术分类算法的规律，这些都是关于现实生活中八种信誉得分数据设置的。在被测试的17种方法中，由于精确的分类（由PCC即百分比精确分类机构测定），平均排名最高的的SVM（Thomas，Liver和Hand，2005）。为了提高PCC的性能，黄、陈和王（2007年）在信用评分模型

5、的基础上建立了混合的信誉得分模型，还针对数据输入的选择和模型参数提出了一些探索性的方法。实验数据结果表明带有相对较少数据输入的SVM分类器仍然能够获得和神经网络、遗传编程、决策树分类器等良好分类器一样的精确分类。尽管单一的SVM模型在数据分类上又不错的表现，但是它们对样本数据和参数的设置太敏感。一般来说，一个带有一组确定的实验样本数据和特定的参数设置的单一的SVM数据分类器，可能会有一系列感性偏差。减少这种偏差的一种有效方法就是总体模型。总体模型能够有效利用各种数据的多样性，这种方法可以降低方差错误，而且人们相信它也能实现数据分类的功能，并且要比单一的数据分类器好（Breiman，1996,1

6、999）。总体方法的中心思想是建立一组模型，其中每一个都是用来解决相同的初始问题，目的是为了获得一个更好的总体模型，这种模型会拥有更精确可信度更高的评估或者决定，这些都是单一的数据分析模型不可比拟的，因为从中无法获得那样的数据，从而也表明了复合方法的工作机制。（Maim和Rokach，2005），图1示出了该机制的集成方法。图1 总体模型框架图这篇论文推荐了一些新的SVM总体模型，这些模型通过不同的方法可以复合最简单的直线SVM分类器，而直线SVM分类器之前是分类个人数字的。这些总体模型可以分成两组。一组是根据每个数据分类器可靠度来分类的，另一组是根据不同的权重分类的。基于可靠性为依据的总体模

7、型策略与总体模型中通常所用的“一数一票”方法不同。这种调整来自于直觉，专家认为“一数一票”的复合策略并没有充分利用每一个分类器的数据信息。举个例子来说，一种总体模型有三个SVM数字分类器，Ha，Hb，Hc,。图2 总体模型决策示例如图2所示，它们在数据分类上都具有活性，这些都在第二个例子中举出。在点A，由于一个未被发现的特征向量，两个复合数字（Ha，Hb）对确定这个点没有任何作用，但却对数据的分类有轻微的负面影响，与此同时，第三个数字Hc却作为一个正面因素强烈的决定着数据的分类，所以说哪一个才应该是这个复合分类器合理的分类结果呢？换句话说，A的决定值，从两个SVM数字分类器中获得，虽然有负面影

8、响但却非常接近超平面，尽管第三个数字影响是正的，但却超出了最优超平面正类。很显然，对于这个分类A的实验来说，这个“一字一票”的复合分类器的最终决定是负面的，因为有两个数字是起负面影响的，而只有一个数字起正面影响，这就是少数服从多数的原则。一个直观的方法就是分配不同权重的任务给不同的分类器，来代替“一数一票”的方法。这些任务的重要性可以根据分类器的全部表现来决定，而且通过实验之后可以被设置为常数，或者是被设置成一种功能，用来检测针对样本分类器的不同表现。SVM分类器的总体模型方法已经被广泛研究。Kim，Pang和Je（2003年）提出一种SVM合奏装袋的总体分类器，专家发现在分类的精确度上，它要

9、比单一的SVM分类器精确的多。Sun和Huang(2004年)提出最小二乘支持向量机总体模型，并且发现它们对于复杂数据更有优势。另外关于SVM总体分类器模型的一些其他分类研究还包括(Coelho，Lima，和Von Zuben，2003年，和Maet al，2004年)为了获得更好的分类性能，需要通过总体模型和总体策略来实现分类器的两个重要要求。首先，总体数据成员应该有某种种类的多样性，并且分类器必须表现出不同的分类属性。在另一个极端的情况下，如果针对所有的实验样本数据，所有的分类器作出的决定都是相同的，那么这种带有这些分类器的总体模型，对于加强分类结果的决定没有任何帮助。首先，总体数据的多样

10、性可以通过运用不同的实验样本或者样本方法来保证，再或者通过应用针对不同种类分类器的不同分类器参数来确保。其次，还需要一个良好的总体策略，主要通过一系列互补分类器的获得更精确更好的分类表现。论文剩下的部分有条理组织起来如下，在第二部分将详细介绍框架内最小二乘支持向量机集成模型和一些合奏策略。为了区分以上建议方法的有效性，第三部分将验证对以上各种模型的有效性。最后，第四部分将得出一个简短的结论，并进行简单讨论。2最小二乘支持向量机集成模型2.1 最小二乘支持向量机的总体框架在这一部分，为评估信誉风险提出了一种新型的最小二乘法支持向量机学习框架，最小二乘法支持向量机总体模型学习框架起初的构想来自于应

11、用所有隐藏在最小二乘法支持向量机分类器中有价值的信息，其中每一个分类器中的以藏信息都有可能对一般结果又很大影响，甚至是优化结果。在我们提出的多级SVM总体学习模型是多阶段的，在这种模型中，为了提高分类器的多样性，在每一个不同分类器设置中，首先使用的方法是抽样方法。由于实验数据设置不同，多重单一的分类器都被实验了。因此，关于有效的数据设置方面，每一个SVM分类器的分类结果和表现价值就这样获得了。然后再运用一种特殊的方法在这些多重多样的实验SVM分类器中选择合适的总体数据。最后，根据一些特定的标准合计出总体数据，然后获得总体结果。最后的结果被称作总体输出。这种SVM总体学习模型是以可信度为依据的，

12、并且是多阶段的，关于这种学习模型的一般构建思路见图3。通常来说，信贷机构大概会有数以百万计的客户，每一个客户在数据库中至少应该有一次记录数据集。因此针对所有顾客的样本容量太大了。实际上，运用所有已知的样本区构建这个模型是不可能的，因为那样可能会消耗令人难以接受的计算时间。因此，我们有必要从原始数据库中选择合适的子集，建立用于构建和测试的子集数据的模型。假设原始数据库DS的大小是N，新的实验数据TR、验证数据集VS、测试数据集TS的容量分别是Nr、Nv、Nt。假设新的实验数据库数目是n,代表的也是分类器的数目。在这项研究中，为了增加总体模型中分类器的多样性，我们在TR中随机选择了一个固定的复合样

13、本，然后分别分配在每一个不同的子集中，这种抽样方法的缺点就是一些样本可能会被抽到很多次，而有些可能就一次也抽不到。根据Hansen和Salamon（1990年）对有效总体分类器下了定义，“对总体分类器来说，使他们比任何一个单一数据分类器更精确的充分必要条件是所有的分类器都是精确且多样的”。一般情况下，一个有效的总体分类器由多样分类器模型组成，且每一个模型也都具有多种多样性，这样的总体分类器在偏差-方差权衡（Yu，Lai，Wang和Huang，2006年）的规则之下更有可能有一个好的一般表现。因此，怎样才能构建出一个多样性模型成为关键因素。在实验中，很多种方法去构建出不同的总体数据，结果这些数据

14、都出现了各种各样的错误。这些方法基本上都是依赖于改变参数来实现的，这些参数一般都是和设计相关或者是和最小二乘支持向量机的实验数据相关。详细来说，主要方法包括以下三个方面的内容：（1）使用最小二乘支持向量机分类器模型的不同核心功能。比如说：线性或者RBF功能。（2）根据实验样本选择最小二乘支持向量机模型参数。通常来说，就是指RBF核心功能中的参数和。这个模型中的所有参数都是根据直接筛选最优化的。（3）不同的实验数据。因为不同的数据集包含不同的信息，然后不同的数据参数，就能产生不同的数据模型。创建出不同的SVM分类器之后，下一步就是验证每个分类器的功能，在这项研究中，所选择的SVM分类器是由Suy

15、kens,Gestel,Brabanter和Moor(2002年)提出的带有RBF核心功能的最小二乘法支持向量机模型。这些实验SVM分类器模型的参数，比如说每个分类器的偏差常数，根据它们在有效样本中的不同表现进行不断优化。因此，最小二乘法支持向量机分类器可以通过以下公式构建。（2.1）它决定的价值函数：（2.2）在基于可靠性的总体策略中，我们用x的决定值f(x)代替F(x)来表示该分类器的分类得分，而不是直接使用F(x)的分类结果来测定。对于信贷风险分类的问题，一个信誉分析师可以通过调整参数b来修改降低值，从而改变已接受申请者所占的百分比。当一个申请者的信誉得分比最低值高的时候，他的申请将

16、会被接受并受理。除此之外，决定值f(x)能够很好的显示一个总体分类器的可信程度。|f(x)|数字越大，这个总体分类器的可信程度就越高。因此，在综合总体数据时，决定值|f(x)|被用来作为可信度的衡量值。通过这种方法，我们可以看出其在衡量水平上的决定作用。2.2 选择合适的总体数据经过实验之后，每一个单一的最小二乘法支持向量机分类器都会得出各自的结果。然而，如果有很多的单一数据的话，我们就需要选择一个子集作为代表，以便提高总体分类器的有效性。此外，这种总体的学习模型并不遵循“越多越好”的规则。因此，在总体分类器的学习上，需要学会使用多种多样的SVM分类器。为了给SVM总体分类器的学习选择一些合适的SVM分类器，一个相关的最低程度的策略已被采纳。这种最低程度的相关策略是需要选择一组相关性最小的分类器，当然这些相关性是根据他们针对一系列相同的有效数据时的表现所测定的。

展开阅读全文