代价敏感决策树讲解

上传人:鲁** 文档编号:428643242 上传时间:2022-12-21 格式:DOCX 页数:13 大小:99.63KB
返回 下载 相关 举报
代价敏感决策树讲解_第1页
第1页 / 共13页
代价敏感决策树讲解_第2页
第2页 / 共13页
代价敏感决策树讲解_第3页
第3页 / 共13页
代价敏感决策树讲解_第4页
第4页 / 共13页
代价敏感决策树讲解_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《代价敏感决策树讲解》由会员分享,可在线阅读,更多相关《代价敏感决策树讲解(13页珍藏版)》请在金锄头文库上搜索。

1、用于欺诈检测的一种代价敏感决策树方法Yusuf Sahin a, Serol Bulkan b, Ekrem Duman ca Department of Electrical & Electronics Engineering, Marmara University, Kadikoy,34722 Istanbul, Turkeyb Department of Industrial Engineering, Marmara University, Kadikoy, 34722 Istanbul,Turkeyc Department of Industrial Engineering, Ozye

2、gin, Cekmekoy, 34794 Istanbul, Turkey 关键词:代价敏感建模信用卡欺诈检测决策树分类 可变误分类代价 摘要:随着信息技术的发展,欺诈行为遍布世界各地,这导致了巨大的经济损失。虽然诸如CHIP&PIN等欺诈预防机制已经被开发应用于信用卡系统,但这些机制并不能阻止一些最常 见的欺诈类型,比如在虚拟POS机上的信用卡欺诈使用,或者是所谓的在线信用卡欺诈邮购。 所以,欺诈检测成为了一种必不可少的工具,并且可能是阻止此类欺诈类型的最佳方法。在 此次研究中,提出了一种全新的代价敏感决策树方法,它将在每个非叶节点选择分裂属性时 最小化误分类代价之和,其在现实世界信用卡数据

3、集上的性能可以与那些众所周知的传统分 类模型相比较。在这种分类方法中,误分类代价将取不同的值。结果表明,在给定的问题集 上使用已知的性能指标,比如准确度和真阳性率,此代价敏感决策树算法胜过现有公知的方 法,而且针对特定的信用卡欺诈检测领域,还新定义了一种代价敏感指标。因此,通过在欺 诈检测系统中实施该方法,可以更好的减少由于欺诈交易造成的金融损失。1. 引言欺诈可以被定义为为了取得财务或个 人利益的非法或刑事欺骗。两种避免由于诈 骗活动导致欺诈和损失的机制是欺诈预防 以及欺诈检测系统。欺诈预防是以防止欺诈 行为发生为目标的主动机制。欺诈检测系统 在诈骗者越过欺诈预防系统并且开始一个 欺诈交易时

4、发挥作用。有关欺诈领域以及检 测技术的综述可以在 Bolton and Hand (2002), Kou, Lu, Sirwongwattana, and Huang (2004), Phua, Lee, Smith, and Gayler (2005), Sahin and Duman (2010) 的研究中找到。其中最知名的欺诈领域是信 用卡系统。可以通过许多方法进行信用卡欺 诈,如简单盗窃,申请欺诈,伪造卡片,从 未达卡问题(NRI)以及在线诈骗(在持卡 人不存在的情况下)。在网络诈骗中,交易 是通过远程完成的,并且只需要信用卡信 息。由于网络的国际可用性和易用性,用户 可以在互联网交易

5、中隐藏自身位置以及身 份,所以通过该媒介发生的欺诈行为正在快 速增长。信用卡欺诈检测有很多以前已经完成 的研究。关于信用卡系统以及欺诈领域非技 术性知识的一般背景可以分别从Hanagandi, Dhar, and Buescher (1996) and Hand and Blunt (2001)学习。在这个领域中,最常用 的欺诈检测方法有规则归纳技术,决策树, 人工神经网络(ANN),支持向量机(SVM), 逻辑回归以及诸如遗传算法的启发式算法。 这些技术可以单独使用,也可以通过集成以 及元学习技术协同使用来构建分类器。大多 数信用卡欺诈检测系统在使用监督算法,比 如神经网络(Brause,

6、Langsdorf, & Hepp, 1999;Dorronsoro, Ginel, Sanchez, &Cruz, 1997;Juszczak, Adams, Hand, Whitrow, & Weston, 2008; Quah & Sriganesh, 2008; Schindeler, 2006; Shen, Tong, & Deng, 2007; Stolfo, Fan, Lee, Prodromidis, & Chan, 1997; Stolfo, Fan, Lee, Prodromidis, &Chan, 1999;Syeda, Zhang, &Pan, 2002;Prodrom

7、idis, Chan, &Stolfo, 2000),ID3、C4.5和C&RT 一类的决策树技 术(Chen, Chiu, Huang, &Chen, 2004; Chen, Luo, Liang, & Lee, 2005;Mena, 2003;Wheeler & Aitken, 2000)以及支持向量机 ( Gartner Reports, 2010; Leonard, 1993)。信用卡欺诈检测是一个非常困难,但也 很受欢迎的亟待解决的问题。总是仅有有限 数量有关犯罪交易的数据。同时,也有可能 存在诈骗者进行符合正常(合法)行为模式 (Aleskerov, Freisleben, & R

8、ao, 1997) 的交易通过的情况。此外,该问题还有很多 限制。首先,正常和诈骗行为的表现不断地 改变。其次,新欺诈检测方法的发展变得更 加困难是由在欺诈检测中交换思想的事实 造成的,尤其是信用卡欺诈检测因为安全和 隐私问题被严格限制。第三,数据集不一定 是可用的,其结果往往是截尾的,这使得它 们难以评估。甚至,一些研究使用合成产生 的数据进行(Brause 等,1999; Dorronsoro 等, 1997)。第四,信用卡欺诈数据集是高 度倾斜集。最后,该数据集正在不断发展, 使得正常和诈骗行为的表现总是在变化(Bolton & Hand, 2002; Kou 等,2004; Phua

9、et al., 2005; Sahin & Duman, 2010)。因 此,信用卡欺诈检测仍然是一个流行的,具 有挑战性以及困难的研究课题oVisa关于欧 洲国家的信用卡欺诈报告指出在2008年, 大约50%的信用卡欺诈损失是由于在线欺诈(Ghosh & Reilly, 1994)o 许多文献报道 了大量不同国家的损失( Bolton & Hand, 2002; Dahl, 2006; Schindeler, 2006)o 因此,新方法提高了在这一领域的分类器性 能兼有经济意义与研究贡献。基于这个领域 的特性,定义一个新的代价敏感方法是改善 的最佳途径之一。虽然传统的机器学习技术在许多分类

10、问题上一般是成功的,但是具有高准确度或 最小化误分类误差并不总是开发分类器的 目标。在现实世界的机器学习问题领域的应 用中,有各种类型的代价参与,Turney定义 了其中的九种主要类型(Turney, 2000)o 然而,大多数机器学习文献并不采取任何这 些代价的考虑,仅仅剩下的一小部分考虑了 误分类代价oTurney还指出误分类误差的代 价在分类中具有独特的地位(Turney, 2000)o 而根据 ML-netil 项目(European Network of Excellence in Machine Learning)的技术路线图,代价敏感学习据 称是在机器学习研究的未来中一个非常流

11、行的课题(Saitta, 2000; Zhou & Liu, 2006)。因此,通过构建代价敏感分类器来 改善分类器在欺诈检测系统中的性能是一 个使大量经济损失恢复的最好办法。此外, 客户的忠诚度和信任度也将有所增加。并且 代价敏感分类器已经被证明能够有效处理 类不平衡问题(Thai-Nghe, Gantner, & Schmidt-Thieme, 2010; Zhou&Liu, 2006)。大量过去的研究是在恒定的误分类代 价矩阵或者由一些恒定的合成误分类代价 组成的代价矩阵上进行的;然而,每个假阴 性(FN)具有它固有的独特的误分类代价。 因此,每个假阴性(FN)应当以某种方式排 列来显示

12、误分类代价的差异。例如,具有较 大交易量的或者更大可用额度的欺诈交易 应该比具有较小数量或可用额度的更需要 被检测。恒定代价矩阵或者不变代价矩阵的 组合不能描述这个场景。所以,本研究是在 可变误分类代价的分类问题工作中,将这样 的情况纳入考虑的开拓者之一。这项研究的 目的是填补信用欺诈检测文献的一项空白。在此研究中,开发了一个新的代价敏感 决策树归纳算法,它将在树的每个非叶节点 选择分裂属性时最小化误分类代价之和,并 且分类性能可以与那些无论是代价不敏感 还是代价敏感的具有固定误分类代价率的 传统分类方法相比较,比如传统决策树算 法,人工神经网络和支持向量机。结果表明, 就诈骗交易的辨别和防止

13、可能的损失量而 言,这个代价敏感决策树算法在我们现实世 界数据集上的表现优于现有公知的方法。在信用卡欺诈检测中,误分类代价以及 欺诈的优先序基于个人记录来区别不同。其 结果是,常见的性能指标,如准确率,真阳 性率(TPR)或者甚至曲线下面积(AUC)并 不适合评估模型的性能,因为它们接受每个 欺诈是具有相同优先级,不管欺诈交易量或 者当时交易中用卡的可用信用额度是多少。 应该使用一个使用有意义的方式按序排列 欺诈交易以及检查模型在最小化总经济损 失时性能的全新性能指标。一旦诈骗者得到 使用信用卡进行诈骗交易的机会,他们通常 消耗完一张信用卡的可用信用额度。因此, 一个欺诈交易的经济损失可以假定

14、为交易 前卡的可用信用额度,而不是交易的数量。 这样,模型在测试集上的性能比较可以使用 新定义的代价敏感性能指标挽回损失率(SLR),也就是从欺诈交易中信用卡可用额 度之和的潜在经济损失中挽回的百分比。为 了显示我们观点的正确性,在模型性能的比 较中,代表模型性能的真阳性率(TPR)的 值也会给出。本文的其余部分安排如下:第二章节给 出机器学习中代价敏感方法的回顾;第三章 节给出对于信用卡数据的结构的一些见解; 第四章节给出新开发的代价敏感决策树算 法的细节;第五章节给出结果以及对结果的 简短讨论;第六章节总结本研究。2. 机器学习中的代价敏感方法有不同方法用于构建将代价敏感性考 虑在内的分类

15、模型。第一个通过改变过采样 或欠采样的训练数据分布来建立代价敏感 分类模型,使得该集合中数据的代价可以表 现出例子的形态。一些研究试图通过分层来 克服误分类代价问题;以及当数据集不平衡 时复制或丢弃样本(Japkowicz, 2000; Kubat & Mat win, 1997)。然而,这些研究 人员假设代价矩阵的内容是固定的数字,而 不是依赖记录的值。研究人员如 Domingos 试图建立像MetaCost的机制去将代价不敏 感分类器转换为代价敏感分类器(Domingos, 1999; Elkan, 2001)。根据一些研究报告,过采样对于不平衡 数据集的学习是有效的(Japkowicz

16、& Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。但是,过采样增加了训练 的时间,并且因为它创建了不少较小类样本 的拷贝,所以可能会导致过拟合问题 (Chawla, Bowyer, & Kegelmeyer, 2002; Drummond & Holte, 2003)。不同于过采样, 欠采样试图减少较多类的样本数量,以便于 实现训练集数据关于类分布的平衡。一些研 究表明欠采样善于处理不平衡数据问题( Drummond & Holte, 2003; Japkowicz & Stephen, 2002; Japkowicz et al., 2000; Maloof, 2003)。第二种方法是当建立分类模型时将代 价敏感性考虑在内,调整廉价类的阈值使得 昂贵类样本的误分类更加困难以此最小化 误分类代价(Langford & Beygelzimer, 2005; Maloof, 2003; Sheng & Ling, 2

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 建筑资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号