银行贷款发放信用评价问题数学模型-论文

资源描述

《银行贷款发放信用评价问题数学模型-论文》由会员分享，可在线阅读，更多相关《银行贷款发放信用评价问题数学模型-论文（30页珍藏版）》请在金锄头文库上搜索。

1、银行贷款发放信用评价问题数学模型银行贷款发放信用评价问题数学模型- -论文论文银行贷款发放信用评价问题数学模型摘要本文针对商业银行在发放贷款的过程中，如何利用一定的判别准则对申请贷款企业信用度进行打分的问题，建立相应的数学模型，给出判别准则。首先，对商业银行现有的600个申请贷款企业背景资料及打分情况的数据进行预处理。巧妙地构建字符型取值数值化公式，合理的将离散型变量（取值均为字符型）取值数值化，以及利用spss软件对15个自变量和1个因变量做相关性分析，筛选出12个属性变量。此外，通过回归分析对数据进行深挖掘，利用MATLAB软件对背景资料数据作时序残差图，考察分析时序残差图发

2、现有64个奇异点，在Logis tic回归模型中将对应的64个样本点予以剔除。然后，对预处理所得的背景资料数据，建立Logistic回归模型，利用spss统计软件对模型求解，得到各属性的权重系数。以谋求判别结果与原始结果吻合度最大为原则，给出了判别准则。随后，鉴于背景资料信息不全的情况，本文利用算子的思想，构建“缺省信息均值 ”，同时定义相应的“缺省信息运算法则”，对Logistic回归模型进行修正。利用C+ 软件编程，重新求得修正后的各属性权重系数。本文特从600个申请贷款企业随机抽取75个样本，随机丢失若干属性信息，同样以谋求判别结果与原始结果吻合度最大为原则，给出修正后的判

3、别准则。接下来，通过C+编程，利用给出的判别准则对剔除64个问题样本点后的536个企业重新打分，结果与原始打分相比，吻合度达到98.5%。对被剔除的64个企业单独重新打分，发现与原始结果完全相反，实际是对问题样本点进行了纠正，打分准确度达到100%。同样使用判别准则求得前53个待申请企业打分值。分析修正判别准则对随机抽取75个样本打分结果，发现对不发放贷款的企业的原始打分与重新打分完全相同，实现了风险最小化原则，再使用修正判别准则求得后37个待申请企业打分值。最后，我们就模型存在的不足之处提出了改进方案，并对优缺点进行了分析，根据数据分析结果，为银行高层管理者写一份报告，使判

4、别准则得以被采用。关键字信用评价 Logistic回归模型判别准则缺省信息运算法则一、问题的提出商业银行计划给有需求的企业发放贷款时，为了有效地减少金融风险，要求每个申请贷款企业提供企业经营状况的相关资料，并根据这些资料，对这些企业进行打分，以确定是否为其提供贷款。考虑以某银行现有600个申请贷款企业的背景资料及打分情况，为保护商业秘密，资料中的属性（变量）已换成没有任何意义的代码。如 b,30.83,0,u,g,w,v,1.25,t,t,01,f,g,00202,0,+ a,38.58,5,u,g,cc,v,13.5,t,f,0,t,g,00980,0, 资料中共有15个

5、属性（用逗号隔开，分别记为A1A15）和一个打分情况，要求给出一种判别准则，并对这600个企业重新打分，使打分与原打分尽可能相吻合。现有90个待申请贷款企业，企业背景资料与前600个申请贷款企业有相同的形式，现应用所给出的判别准则对这90个申请贷款企业中的前53名进行打分，以确定是否为其提供贷款。由于企业自身的原因（如漏填或有意不填），有些项的指标没有填写（没有填写的项在表中为？），针对这种情况，修正判别准则，然后对90个申请贷款企业中的后 37名行打分，以确定是否为其提供贷款。最后，为银行的高层管理者写一份报告，阐述判别方法的正确性或合理性，使其被采用。二、问题的分析本题

6、背景资料中属性变量的类型有两种：连续型和离散型，且离散型变量的取值均为字符型，无法用函数关系来刻画属性和因变量之间的关系。因此，它们无法直接为数学模型所用。此外，资料中的离散型变量已换成没有任何意义的代码，无法观察各属性变量间的关系以及对判别结果的影响。同时考虑各个申请贷款企业经营状况的相关资料是由各个企业向银行提供的，其属性变量的取值必然存在人为误差。基于上述三个原因，本文必须对已知数据进行预处理。鉴于90个待申请贷款企业中的后37名的背景资料不齐全，我们必须对判别准则进行修正，最后通过修正判别准则进行打分。我们需要解决下列关键分析： 1. 数据的处理。包括离散变量取值数值化，

7、利用相关性分析对属性变量进行筛选以及通过回归分析背景资料进行筛选。 2. 建立适当的模型，提高判别结果的精确度。 3. 必须通过对已知数据的深挖掘，找出修正判别准则的方法。我们将整个问题分为如下两个问题，建立模型求解问题一，然后通过对判别准则的修正，对模型进行改进以求解问题二：问题一通过对企业背景资料中600组数据的分析，给出判别准则，并对这600个企业重新打分，使打分与原打分尽可能相吻合。应用判别准则对90个待申请贷款企业中的前53名进行打分，以确定是否为其提供贷款。问题二修正判别准则，对90个待申请贷款企业中的后37名进行打分，以确定是否为其提供贷款。三、模型假设和符

8、号系统 3.1 模型假设 1. 所有属性变量都为无序列属性变量 2. 不考虑属性变量和数值变量在模型中的交叉作用 3. 不考虑模型对变量的多次回归相关性 4. 数据经转换后保留了原始数据的某些统计特征，即问题的可预测性 5. 给出的变量符号没有任何的意义 6. 假设打分结果只与这15个属性有关，预其余的属性无关 7. 所有的申请者都可以分成两类，即打分为“+”与“”两类 3.2 符号系统：表示任意一字符：申请贷款企业的打分情况，分为与两类：第个申请贷款企业的打分值（1或0）：第个属性变量：两变量之间的相关性系数：第个申请贷款企业的信用值：第个申请贷款企业的违约概率：第个属性的权

9、值系数：第个属性的缺省信息均值。：申请贷款企业的总数，本文取600 ：第个申请贷款企业的第个属性值：第个未知属性值表示符号第个待申请贷款企业第个属性的值第个待申请贷款企业的违约概率第个待申请贷款企业的信用值：则表明申请贷款企业信用度不好，不发放贷款。：则表明申请贷款企业信用度好，可以发放贷款。808银行贷款发放信用评价问题数学模型四、模型的建立 4.1数据的预处理 4.1.1 离散型变量取值数值化由于本文属性变量的类型有两种：连续型和离散型，且离散型变量的取值均为字符型，无法用相关函数来刻画属性和因变量之间的关系。所以，我们必须将离散型变量取值数值化。因而，每个离散型变

10、量的取值需重新定义。根据假设，给出的变量符号没有任何的意义；数据经转换后保留了原始数据的某些统计特征，即问题的可预测性。定义：任意一字符的取值：（1）其中：：当时字符的总个数：不考虑类别时字符的总个数根据该定义，利用SPSS统计软件的强大统计功能，求出每个离散型变量的每个字符的取值，使其变为数值型。处理结果如表一所示。表一离散型变量取值数值化属性离散型变量的取值 A1 a = 0.4481, b = 0.4532 A4 u = 0.5, y = 0.2857, l = 1, t = 0 A5 g = 0.5, p = 0.2857, gg = 1 A6 c = 0

11、.4590, d = 0.2800, cc = 0.7500, i = 0.2549, j = 0.3333, k = 0.2889, m = 0.4286, r = 0.6667, q = 0.6032, w = 0.5172, x = 0.8235, e = 0.5833, aa = 0.3830, ff = 0.1458 A7 v = 0.4282, h = 0.6311, bb = 0.4600, j = 0.3750, n = 0.5000, z = 0.7500, dd = 0.3333, ff = 0.1538, o = 0.5000 A9 t = 0.7962, f = 0.0

12、605 A10 t = 0.7008, f = 0.2560 A12 t = 0.4821, f = 0.4250A13 g = 0.4689, p = 0.5000, s = 0.2692 4.1.2 属性变量的筛选本文预先给出了大量的数据，因此我们先考察各属性变量间的关联性；一方面将与因变量（）相关性不大的变量剔除，另一方面从自变量（）之间相关性非常大选择其一。根据假设，我们不考虑属性变量的顺序，即所有属性变量都为无序列属性变量。利用SPSS统计软件对这15个自变量和因变量做相关性分析，可得到各个变量之间的相关性系数（），见附表一。我们定义两变量之间的强度关系如表二：表二

13、两变量间的强度关系定义相关性系数强度关系存在显著性相关高度相关中度相关低度相关关系极弱认为不相关从相关性系数表中我们可以看出自变量和与因变量的相关性很弱，分别为0.005和0.057；而自变量和之间存在显著相关性，其相关系数为1。这样，我们可以从15个自变量中剔除3个（这里选择、和），使变量数目减少。为了便于描述，本文将这剔除的3个变量给与保留，但令其权值系数分别为、、。 4.1.3 背景资料的筛选鉴于12个自变量都转化成数值型的变量。通过回归分析（假设不考虑变量的多次回归相关性）对数据进行深挖掘，利用MATLAB对600家申请贷款企业的背景资

14、料作时序残差图（如图一），考察分析时序残差图，发现有64个奇异点（时序残差图中红色线）见附表二，即有64家申请贷款企业背景资料应剔除，最后利用模型进行回代检验也证实了这一点。图一时序残差图 4.2模型的建立 4.2.1 Logistic回归模型根据筛选后剩下的536个申请贷款企业背景资料及打分情况，对第家申请企业的打分值，令：（2）在已经打分的536个申请贷款企业中，的值是已知的。由于15个属性变量的取值都已转化为数值型变量，且每一位申请者的15个变量的值都是一个大于0的数，假设不考虑属性变量和数值变量在模型中的交叉作用，则可以建立具有15个属性变量的Logistic模

15、型：（3）其中，为第个申请贷款企业的信用值，第家申请企业的15个指标为影响变量，为第个属性的权值系数，为申请贷款企业的违约概率。由Logistic的函数图像（如图二）知，是的连续增函数，并且。所以。图二 Logistic函数图像对于某一申请贷款企业（）而言，如果其Logistic回归值接近于0（或），则其评分为；若其Logistic回归值接近于1（或），则其评分为。并且值越远离0，表示该申请企业贷款信用度越差；反之，表示该申请企业贷款信用度越好。 4.2.2 修正Logistic回归模型由于企业自身的原因（如漏填或有意不填），有些项的指标没有填

16、写（没有填写的项在表中为?）。针对这种情况，为了对此类申请贷款企业（题中表3的后37名）进行打分，以确定是否为其提供贷款，本模型利用算子的思想，创造性的构建了缺省信息值，对缺省信息进行了有效地处理。从而合理的对判别准则Logistic回归模型进行了修正，有效的解决了此问题。银行贷款发放信用评价问题数学模型（1）利用算子的思想，构建缺省信息均值，（4）其中，为申请贷款企业的总数，本文取600为第个属性的权值系数为第个申请贷款企业的第个属性值（2）缺省信息均值运算法则定义: 运算（5）其中，为第个未知属性值表示符号（3）修正Logistic回归模型将所求得的缺省信息均值，按照其运算法则，建立了修正Logistic回归模型：（6）其中，属性变量总个数，本文取15第个待申请贷

展开阅读全文