【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为

上传人:蜀歌 文档编号:147427275 上传时间:2020-10-10 格式:PDF 页数:5 大小:360.02KB
返回 下载 相关 举报
【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为_第1页
第1页 / 共5页
【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为_第2页
第2页 / 共5页
【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为_第3页
第3页 / 共5页
【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为_第4页
第4页 / 共5页
【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为》由会员分享,可在线阅读,更多相关《【财务管理信用管理 】贝叶斯网络预测信用卡欺诈行为(5页珍藏版)》请在金锄头文库上搜索。

1、财务管理信用管理贝叶 斯网络预测信用卡欺诈行 为 财务管理信用管理贝叶 斯网络预测信用卡欺诈行 为 贝叶斯网络预测信用卡欺诈行为贝叶斯网络预测信用卡欺诈行为 贝叶斯网络应用(1)贝叶斯网络应用(1) 一、理论说明 1贝叶斯网络的应用 使用贝叶斯网络,可以通过将观察到并记录下的数据与实际常识结合起来构建概率模型, 以通过使用表面看上去不相关的属性确定发生的可能性,找出一个结果到底与哪些影响变量 相关,或者说,究竟是什么因素影响了结果。 贝叶斯分类模型继承了贝叶斯网络的优点并具有良好的分类精度, 正受到越来越多的关注, 并广泛的应用在欺诈识别、客户管理、医学诊断上、互联网搜索上,比如,利用贝叶斯分

2、类 模型建立客户的等级分类,如信用等级、忠诚等级,当新客户出现时,即可以按该分类模型 对其等级情况做出分类预测。又比如本文所例举的,根据信用卡用户的信用记录及相关信息 建立用户的信用模型,并监测哪些用户会做出贷款拖欠的行为。 2贝叶斯网络模型 (1)贝叶斯原理 统计学分成两派,一派是传统的频率学派,一派是贝叶斯派,能够在统计学界自成一派, 可见其影响。贝叶斯的核心思想在于一个公式 P(A|X)=P(X|A)P(A)/P(X) 其中 A 是随机变量,X 是数据,P(X|A)是似然,P(A)是先验分布,P(A|X)是后验分布,P(X) 是一个数。 这个公式的意义在于,我们可以通过一个经验的概率,加

3、上数据的实践,来得出一个后验 的概率,也就是说“经验+数据=结果”。那么将这个原理用在贝叶斯网络上,即将先验贝叶斯 网络和数据相结合而得到一个后验贝叶斯网络。那么什么是贝叶斯网络? (2)贝叶斯网络模型概述 贝叶斯网络(Bayesiannetwork),又叫概率因果网络、信任网络、知识图等,是一种有向无环 图。一个贝叶斯网络由两个部分构成,一个是具有 K 个节点的有向无环图,图中有节点和连 接节点的有向边,节点代表随机变量,有向边代表了节点间的相互关联关系。 另一个是与每个节点相关的条件概率表(ConditionalProbabilitiesTable,CPT)P,它表示了 节点和父节点之前的

4、相关关系,这个关系就是条件概率。那么由这个图 G 和概率表 P 构成 的网络就是贝叶斯网络,贝叶斯网络有如下假设(或者规定): 给定一个父节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节 点子集。即如果用 A(Vi)表示非 Vi 后代节点构成的任何节点子集,用(Vi)表示 Vi 的直接双亲 节点,则 p(Vi|A(Vi),(Vi)=p(Vi|(Vi) 在这个假定下,变量 Vi 的联合概率就是 : 给定每个节点的父节点情况下,每个节点条件概 率只积,如图中的联合概率为 p(V1,V2,.,V6)=p(V6|V5)p(V5|V2,V3)p(V4|V2)p(V3|V1)p(V2|

5、V1)p(V1) 这就是贝叶斯网络和其网络的概率。我们可以让贝叶斯网络通过数据不断的学习修正,上 次修正的贝叶斯网络又是下次学习的先验贝叶斯网络,持续的学习使得网络更能体现数据的 意义,即,让数据来说话! (2)树增强朴素贝叶斯网络模型概述 尽管贝叶斯网络有良好的逻辑性、预测性、并在处理复杂问题上有很大的优势,但它的假 设还是带给了它一定的局限性(还记得刚才说的贝叶斯网络那拗口的假设?给定一个父 节点,那么它的子节点独立于任何非这个子节点的后代节点和其构成的任何节点子集) 。近 年来,很多学者对贝叶斯网络模型做了改进,其中一个重要的改进模型就是树增强的朴素贝 叶斯网络模型(TreeAugmen

6、tedNaveBayes) ,英文简称 TAN。 TAN 放松了独立性的假设,它的核心在于:除了父节点之外,每个节点还可以有一个节点 的边指向它。 树增强的朴素贝叶斯主要用来分类,由于他允许一个节点被除父节点之外的另一个节点指 向,因此有更高的分类精度。但是 TAN 要求节点,即随机变量均为离散型,因此有必要将 连续的变量离散化,但这却损失了连续变量中包含的信息。 (3)马尔科夫链贝叶斯网络模型概述 马尔科夫毯贝叶斯网络模型(MarkovBlanketAlgorithms) ,事前不对节点之前做边指向, 换句话说,初试图是一个只有节点没有边的空图,而后通过一定的检验来辨认变量之间的条 件独立,

7、并逐步识别出贝叶斯网络的结构。但这也会带来计算的复杂性,并花费更长的时间, 一个办法是用特征选择过程(FeatureSelection)来筛选对目标变量关系显著的变量。 二、案例分析 1案例说明 某银行希望依据现有的客户贷款拖欠数据,来预测未来哪些潜在客户可能在偿还贷款时有 问题,以便对这些“不良风险”的客户减少贷款,或者为他们提供其他产品。 现有的客户数据包含了当前贷款拖欠情况(default) 、客户年龄(age) 、受教育程度 (ed) 、职业(employ) 、家庭地址(address) 、收入(ine) 、负债率(debtinc) 、信用卡债 务(creddebt) ,其他债务(ot

8、hdebt) 和三个其他相关变量 preddef1、preddef2、preddef3, 现在用 SPSSCLEMENTINE 对已有的数据进行三种贝叶斯网络模型的建模TAN、马尔 科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网络,并同时用人工神经网络模型建模, 以比较这四个模型的分类效果。 2软件实现 使用 CLEMENTINE 读入数据,并将 default 的字段方向改为输出,用过滤节点过滤掉无效 的空值。接着用对数据创建 TAN、马尔科夫毯贝叶斯网络、特征选择的马尔科夫毯贝叶斯网 络,和人工神经网络(也可以用来预测) 。 3结果说明 (1)TAN 模型如下图: 可以看出,TAN 模型创

9、建的结果是变量 preddef2 对是否拖欠贷款最重要,其次是变量 preddef1 和其他负债情况(othdebt) (2)马尔科夫毯模型结果如下: 可以看出,马尔科夫毯模型结果是变量 preddef3 对是否拖欠贷款最重要,其次是变量 preddef2 和 preddef1. (3)特征选择的马尔科夫毯模型结果如下: 由于进行了特征选择,图中可以看出只选择了两个变量,对拖欠贷款最重要的是 preddef2。 (4)人工神经网络结果: 人工神经网络结果是 preddef2 对是否拖欠贷款最重要,其次是变量 preddef1,地址 (address) 。 (5)四种模型效果评估 CLEMENT

10、INE 提供了“分析”节点,以评估模型的预测效果。将分析节点添加入流,执行得 到评估结果如下: 可以看出,准确率最高的是马尔科夫毯模型,在数据学习后,对现有数据中贷款的拖欠情 况预测的正确率是 86.29%,此外,特征选择的马尔科夫毯模型只用了两个变量,就达到了 81.86%的效果,节省了数据收集和输入的时间以及处理时间。 (6)预测 建模的最终目的还是要来预测, 根据模型比较结果, 决定用正确率最高的马尔科夫毯模型, 该银行在新的数据的基础上,可以直接用刚才生成的马尔科夫毯模型进行预测。 感谢阅读感谢阅读 多年企业管理咨询经验,专注为企业和个人提供精品 管理方案,企业诊断方案,制度参考模板等 欢迎您下载,均可自由编辑

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号