贝叶斯网络预测信用卡欺诈行为

上传人:pu****.1 文档编号:510061236 上传时间:2023-07-28 格式:DOC 页数:7 大小:307KB
返回 下载 相关 举报
贝叶斯网络预测信用卡欺诈行为_第1页
第1页 / 共7页
贝叶斯网络预测信用卡欺诈行为_第2页
第2页 / 共7页
贝叶斯网络预测信用卡欺诈行为_第3页
第3页 / 共7页
贝叶斯网络预测信用卡欺诈行为_第4页
第4页 / 共7页
贝叶斯网络预测信用卡欺诈行为_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《贝叶斯网络预测信用卡欺诈行为》由会员分享,可在线阅读,更多相关《贝叶斯网络预测信用卡欺诈行为(7页珍藏版)》请在金锄头文库上搜索。

1、最新资料推荐贝叶斯网络预测信用卡欺诈行为一一贝叶斯网络应用(1)一、理论说明1. 贝叶斯网络的应用使用贝叶斯网络,可以通过将观察到并记录下的数据与实际常识结合起来构建概率模型, 以通过使用表而看上去不相关的属性确定发生的可能性,找出一个结果到底与哪些影响变量 相关,或者说,究竟是什么因素影响了结果。贝叶斯分类模型继承了贝叶斯网络的优点并具有良好的分类精度,正受到越来越多的关 注,并广泛的应用在欺诈识别、客户管理、医学诊断上、互联网搜索上,比如,利用贝叶斯 分类模型建立客户的等级分类,如信用等级、忠诚等级,当新客户岀现时,即可以按该分类 模型对其等级情况做出分类预测。又比如本文所例举的,根据信用

2、卡用户的信用记录及相关 信息建立用户的信用模型,并监测哪些用户会做出贷款拖欠的行为。2. 贝叶斯网络模型(1) 贝叶斯原理统计学分成两派,一派是传统的频率学派,一派是贝叶斯派,能够在统计学界自成一派, 可见英影响。贝叶斯的核心思想在于一个公式P(A|X)=P(X|A) P(A)/P(X)其中A是随机变量,X是数据,P(X|A)是似然,P(A)是先验分布,P(A|X)是后验分布,P(X)是 一个数。这个公式的意义在于,我们可以通过一个经验的槪率,加上数据的实践,来得出一个后脸 的概率,也就是说经验+数据=结果”。那么将这个原理用在贝叶斯网络上,即将先验贝叶 斯网络和数据相结合而得到一个后验贝叶斯

3、网络。那么什么是贝叶斯网络?(2) 贝叶斯网络模型概述贝叶斯网络(Bayesian network),又叫概率因果网络、信任网络、知识图等,是一种有向无环 图。一个贝叶斯网络由两个部分构成,一个是具有K个节点的有向无环图,图中有节点和连 接节点的有向边,节点代表随机变量,有向边代表了盯点间的相互关联关系。另一个是与每个ij点相关的条件概率表(Conditional Probabilities Table,CPT) P,它表示了节 点和父节点之前的相关关系,这个关系就是条件概率。那么由这个图G和概率表P构成的址新资料推荐网络就是贝叶斯网络,贝叶斯网络有如下假设(或者规左):给泄一个父节点,那么它

4、的子节点独立于任何非这个子节点的后代节点和其构成的任何节 点子集。即如果用A(Vi)表示非Vi后代节点构成的任何节点子集,用n(Vi)表示Vi的宜接双 亲节点,则p(vi|A(vi),n(vi)=P(vi|n(vi)在这个假立下,变量Vi的联合概率就是:给龙每个节点的父节点情况下,每个节点条件 概率只积,如图中的联合概率为p(Vl,V2,.,V6)=p(V6IV5) p(V5IV2,V3) p(V4IV2) p(V3IVl) p(V2IVl) p(Vl)这就是贝叶斯网络和英网络的概率。我们可以让贝叶斯网络通过数据不断的学习修正,上 次修正的贝叶斯网络又是下次学习的先验贝叶斯网络,持续的学习使得

5、网络更能体现数据的 意义,即,让数据来说话!(2)树增强朴素贝叶斯网络模型槪述尽管贝叶斯网络有良好的逻借性、预测性、并在处理复杂问题上有很大的优势,但它的假 设还是带给了它一泄的局限性(还记得刚才说的贝叶斯网络那拗口的假设? 一一给泄一个父 节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何廿点子集)。近 年来,很多学者对贝叶斯网络模型做了改进,苴中一个重要的改进模型就是树增强的朴素贝 叶斯网络模型(Tree Augmented NaYve Bayes),英文简称TAN。TAN放松了独立性的假设,它的核心在于:除了父节点之外,每个节点还可以有一个节点 的边指向它。树增强的朴素贝

6、叶斯主要用来分类,由于他允许一个右点被除父节点之外的另一个节点 指向,因此有更髙的分类精度。但是TAN要求节点,即随机变量均为离散型,因此有必要 将连续的变量离散化,但这却损失了连续变量中包含的信息。(3) 马尔科夫链贝叶斯网络模型槪述马尔科夫毯贝叶斯网络模型(Markov Blanket Algorithms),事前不对卩点之前做边指向, 换句话说,初试图是一个只有节点没有边的空图,而后通过一左的检验来辨认变量之间的条 件独立,并逐步识别出贝叶斯网络的结构。但这也会带来讣算的复杂性,并花费更长的时间, 一个办法是用特征选择过程(Feature Selection)来筛选对目标变量关系显著的变

7、量。址新资料推荐二、案例分析1.案例说明某银行希望依据现有的客户贷款拖欠数据,来预测未来哪些潜在客户可能在偿还贷款时有 问题,以便对这些不良风险的客户减少贷款,或者为他们提供英他产品。现有的客户数据包含了当前贷款拖欠情况(default)、客户年龄(age)、受教冇程度(ed)、 职业(employ)、家庭地址(address)、收入(income)、负债率(debtinc)、信用卡债务(creddebt), 其他债务(othdebt)和三个英他相关变量preddefl - preddef2 preddef3,现在用SPSS CLEMENTINE对已有的数据进行三种贝叶斯网络模型的建模一一TA

8、N、马尔科夫毯贝叶斯网 络、特征选择的马尔科夫毯贝叶斯网络,并同时用人工神经网络模型建模,以比较这四个模 型的分类效果。age抑employaddressincomedebtinccred debtothdebtdefoul!preddeflpreddeQpreddeC471172143 CO5 BO.591.820.00335.03201.142622813626 CO10 oo.432.170.29383.23604.228902913627 CO9.80.402.240,ioeso.23413.224262121216.CU18.00.242.6d1.62978.62046.45969刃

9、40232 CO17 EO3.490.86131.7737444EB445293569 CO6 70.713.92a 1B46.01520.1612643252164 CO16 70.959.740.00144.03064.417583321235B.C018.403.037.590.27671.21963.472792632137 .LU14.20.205.050.50332.47945.340354513152D CO2 IDT1.32a.07642(B292(B4Se30111022 CO10 501.141.1704337040523.240722732726 CO6 0072840.

10、28874233C6.149182518427 .CO14.401.022.870.23110.17760.346262518135 CU2.90.08.940.07456.Od0CO26745 COXDO6.05a95CQ594642.7091630210422 CO16 101.412.130.2119625t8.3985132212154 CO14.403.204.530.33ECO.41742.345262.软件实现使用CLEMENTINE读入数据,并将default的字段方向改为输出,用过滤节点过滤掉无效 的空值。接着用对数据创建TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶

11、斯网 络,和人工神经网络(也可以用来预测)。bankloan.sarvMarKCTv鼓新将詁资料整理推荐.更新F二O二C年十二月二十八口 2020年12月28 口星期一 21:15:393. 结果说明(1) TAN模型如下图:最新资料推荐Type HE w雋交Q O. 150 o 125 i) gO0 075Oo 050O0 035I It if ralt円可以看出,TAN模型创建的结果是变量preddef2对是否拖欠贷款最重要,其次是变量preddefl和英他负债情况(othdebt)(2)马尔科夫毯模型结果如下:可以看出,马尔科夫毯模型结果是变量preddef3对是否拖欠贷款最重要,其次是

12、变量 preddef2 和 preddefl.(3)特征选择的马尔科夫毯模型结果如下:鼓新将詁资料整理推荐.更新丁二C二C年十二月二十八口 2020年12月28 口星期-21:15:39最新资料推荐贝|期网络ype曲洌战丫件525 1ECI9I8 Q o o o o Oseoopxididfladder 11pia; (hfauLt以;鼓新将詁资料整理推荐.更新F二O二C年十二月二十八口 2020年12月28 口星期一 21:15:39由于进行了特征选择,图中可以看出只选择了两个变量,对拖欠贷款最重要的是preddef20(4)人工神经网络结果:变ft重要性口标;default人工神经网络结果

13、是preddef2对是否拖欠贷款最重要,其次是变量preddefl,地址(address)o(5)四种模型效果评估CLEMENTINE提供了 “分析”廿点,以评估模型的预测效果。将分析节点添加入流,执行 得到评估结果如下:最新资料推荐白TAN Markov Markov-FS人工神经网络之间的一致性0-单独谟型白“比较TAN与default59384.71%10715.29%700白 比较 Markov 与 default60486.29%9613.71%700曰比较 Markov-FS与 default正确57381.86%12718.14%700右比较人方磁网络与do心ult57882.57%12217.43%700可以看出,准确率最髙的是马尔科夫毯模型,在数据学习后,对现有数据中贷款的拖欠情 况预测的正确率是86.29%,此外,特征选择的马尔科夫毯模型只用了两个变量,就达到了 81.86%的效果,节省了数据收集和输入的时间以及处理时间。(6)预测建模的最终目的还是要来预测,根据模型比较结果,决立用正确率最髙的马尔科夫毯模型, 该银行在新的数据的基础上,可以直接用刚才生成的马尔科夫毯模型进行预测。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 商业计划书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号