下载可编辑《金融数据挖掘案例分析》课程设计报告题 目:基于贝叶斯分类技术的贷款风险预测学生姓名: 学 号: 系别班级: 专业(方向): 指导教师: 年 月日基于贝叶斯分类技术的贷款风险预测摘要本文主要研究了朴素贝叶斯算法在贷款风险预测上对策应用是一种基于最大后验概率的最优朴素贝叶斯在贷款风险的预测思想是以训练集样本在不同朴素贝叶斯的后验概率作为反馈信息,从训练样本中选取部分最优样本,抛弃部分含有噪音的样本,作为最优的朴素贝叶斯算法关键词: 朴素贝叶斯 ;贷款风险;预测AbstractThis paper mainly studies the application of Countermeasures of naive Bayes algorithm in the loan risk prediction. Is a kind of forecast based on the maximum posterior probability optimal naive Bias on loan risk. Thought is the training set samples in different Bayesian posterior probability as the feedback information,select the part of the optimal sample from the training samples, discard somenoisy samples, as naive Bayes optimal.Keywords: naive Bias; loan risk; prediction.引言: 贷款风险通常是对贷款人而言的。
从贷款人角度来考察,贷款风险是指贷款人在经营贷款业务过程中面临的各种损失发生的可能性贷款风险是可以度量的,贷款风险具有可测性,可以通过综合考察一些因素,在贷款发放之前或之后,测算出贷款本息按期收回的概率所谓贷款风险度就是指衡量贷款风险程度大小的尺度,贷款风险度是一个可以测算出来的具体的量化指标,它通常大于零小于1,贷款风险度越大,说明贷款本息按期收回的可能性越小,反之,贷款风险度越小,说明贷款本息按期收回的可能性越大1.朴素贝叶斯分类预测方法 贝叶斯分类算法是统计学的一种分类方法,它可以预测类成员关系的可能性,如给定样本属于一个特定类的概率通过分类算法的比较研究发现,一种称作朴素贝叶斯分类的简单贝叶斯分类算法可以与判定树和神经网络分类算法相媲美用于大型数据库,贝叶斯分类也已表现出高准确率与高速度朴素贝叶斯分类假定一个属于值对给丁磊的影响独立于其他属性的值这一假定称作类条件独立做此假定是为了简化所需计算,并在此意义下成为“朴素的”1.1贝叶斯定理 设X是类标号未知的数据样本设为某种假定,如数据样本属于某特定的类对于分类问题,我们希望确定—给定观测数据样本,假定成立的概率是后验概率,或条件下的后验概率。
例如,假定数据样本域由水果组成,用他们的颜色和形状描述假定表示红色和圆的,表示假定是苹果,则反映当我们看到是红色并使圆的时,我们对是苹果的确信程度作为对比,是先验概率,或得先验概率对于以上的例子,它是任意给定的数据样本为苹果的概率,而不管数据样本看上去如何后验概率比先验概率基于更多的信息(如背景知识)是独立于的类似的,是条件下,的后验概率即是说它是已知是苹果,是红色并且是圆的概率是的先验概率使用上面的例子,它是由水果集取出一个数据样本是红的和圆的的概率贝叶斯定理就是提供了一中由,,和计算后验概率的方法贝叶斯定理是:(1)1.2 朴素贝叶斯分类朴素贝叶斯分类或简单贝叶斯分类的工作过程如下:(1) 每个数据样本用一个维特征向量表示,分别描述对个属性样本的个度量2) 假定有个类给定一个未知的数据样本(即没有类标号),分类法将预测属于具有最高后验概率(条件下)的类即是说,朴素贝叶斯分类将位置的样本分配给类,当且仅当 这样,最大化其中最大的对应的类成为最大后验假定根据贝叶斯定理(1) (2)(3) 由于对于所有类为常熟,只需要最大即可如果类的先验概率未知,则通常假定这些类是等概率的,即,并据此对最大化。
否额,可最大化注意,类的先验概率可以用计算,其中是类中的训练样本数,而是训练样本总数4) 给定具有许多属性的数据集,计算的开销可能非常大为降低计算的开销,可以做类条件独立的朴素假定给定样本的类标号,假定属性值相互条件独立,即在属性间不存在依赖关系这样 (3)概率可以由训练样本估值其中如果是分类属性,则,其中是在属性上具有值的类的训练样本数,而是中的训练样本数2 基于贝叶斯分类的贷款风险预测本文以某企业的装款为案例来说明贝叶斯分类预测一个未知样本的分类工作过程2.1 描述数据数据样本表示对企业还款能力产生的影响,用一个7维特征向量表示, 分别描述为以下7个变量因素:资产报酬率,企业规模,核心企业信用度,上下游企业合作密切度,营业活动收益质量,有形资产债务率,还款风险,由于要考察的是贷款企业的还款风险 因此,目标类为还款风险,整理,收集所得数据库的主要属性见表1表1属性名取值资产投资率企业规模核心企业信用度上下游合作密切度营业活动收益质量有形资产债务率还贷风险>15,8~15,<18大,中,小高,低高,中,低>90,≤90>40,≤40高,低 2.2 预处理数据某银行2007年申请贷款企业的信息数据在表2中。
数据样本用属性资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债务率、还带风险描述把表2中的数据作为训练数据样本,根据表2中数据,预测未知样本某个申请贷款企业(资产报酬率=“>15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“≤90”,有形资产债务率=“≤40”)的还贷风险表2序号资产报酬率企业规模核心企业信用度上下游企业合作密切度营业活动收益质量有形资产债务率还贷风险1>15中高高>90≤40低28-15中高高>90≤40低38-15大高低≥90>40高4<8大低低>90≤40高5<8大高中≥90≤40低6>15小高中>90>40低78-15小低中>90≤40低8<8大低中≥90≤40高9<8小高低>90>40高10>15大高高>90≤40低11>15中低高>90>40低12>15小低低≥90>40高138-15大低中≥90>40高148-15小高低>90>40低2.3 挖掘数据要预测(资产报酬率=“>15”,企业规模=“大”,核心企业信用度=“高”,上下游合作密切度=“中”,营业活动收益质量=“≤90”,有形资产债务率=“≤40”)的还贷风险,需要最大化。
训练数据集包含资产报酬率、企业规模、核心企业信用度、上下游企业合作密切度、营业活动收益质量、有形资产债务、还贷风险这几个属性,其中还贷风险为类标号属性,有两个取值{高,低}设对应类还贷风险=“高”,而对应类还贷风险=“低”每个类的先验概率可以根据训练样本计算:为计算,我们计算下面的条件概率:使用以上概率,得到显而易见,的可能性最大,因此,对于样本,朴素贝叶斯分类预测还款风险=“低”利用挖掘软件得出如下结果:图1 依赖关系网络视图通过图1可以知道“还款风险”主要受“上下游企业合作密切度”和“营业活动收益质量”属性影响图2 最强连接图2说明影响“还款风险”最主要的属性是“营业收益质量”图3 属性配置文件视图图4 属性特征视图 由图3图4可以看出,在“还款风险”属性值为“低”的记录中,营业活动收益质量=“>90”,上下游企业合作密切度=“高” 的记录比较多图5 属性对比视图图5可以看出,“营业活动收益质量”=“>90”更倾向于“还款风险”=“低”; “上下游企业合作密切度”=“高”更倾向于“还款风险”=“低”3.结论朴素贝叶斯分类算法成立的前提是属性独立假定,即假定各属性之间互相独立, 这一假定称作类条件独立。
作此假定是为了简化所需计算,并在此意义下称为“朴素的”贝叶斯分类的效率如何?理论上讲,与其他所有分类算法相比,贝叶斯分类具有最小的出错率然而,实践中并非总是如此这是由于对其应用的假定 (如类条件独立)是不容易达到的然而,种种实验研究表明,与判定树和神经网络分类算法相比,在某些领域该分类算法可以与之媲美,在处理海量数据时也表现出了较高的分类准确性和运算性能在本文金融供应链中信用风险的各变量之间也存在一定的关系比如资产报酬率和营业活动收益质量等,从结果看来,朴素贝叶斯仍在金融供应链信用风险预测中取得了很好的效果,这样也就促进了金融机构在发放贷款时候的信用管理,为金融机构和中小企业之间合作提供了方便4. 参考文献[1].黄静,赵庆祯基于朴素贝叶斯的供应链金融信用风险预测分析[2].。