基于神经网络欺诈检测

资源描述

《基于神经网络欺诈检测》由会员分享，可在线阅读，更多相关《基于神经网络欺诈检测（32页珍藏版）》请在金锄头文库上搜索。

1、基于神经网络的欺诈检测 1 神经网络的欺诈检测的意义 2 本课题研究的内容 3 BP算法以及MATLAB实现 4 欺诈检测的JAVA实现 5 课题研究的结果 6 课题研究的提示欺诈在电子世界里非常普遍，从保险欺诈到互联网拍卖欺诈，从虚假的救济金申请表到电信欺诈。如果你在互联网上从事一些吸引了众多用户与法人实体的业务，当有人不遵守游戏规则时，能够把它们识别出来，这样的能力是非常有价值的。本课题以欺诈性购买交易作为例子，通过引入分类算法把欺诈交易从正常购买中找出来。 1神经网络的欺诈检测的意义 2.1 生物神经网络概述 2.2 生物神经网络处理过程 2.3 人工神经网络概述 2.4

2、人工神经网络处理过程 2.5 基于神经网络的欺诈检测 2 课题研究的内容神经细胞由一个细胞体(soma)、一些树突 (dendrite) 、和一根可以很长的轴突组成。神经细胞体是一颗星状球形物，里面有一个核 (nucleus)。树突由细胞体向各个方向长出，本身可有分支，是用来接收信号的。轴突也有许多的分支。轴突通过分支的末梢(terminal)和其他神经细胞的树突相接触,形成所谓的突触 (Synapse), 一个神经细胞通过轴突和突触把产生的信号送到其他的神经细胞。每个神经细胞通过它的树突和大约10,000个其他的神经细胞相连。神经细胞相连组成了神经网络。 2.1 生物神经网

3、络概述神经细胞利用电-化学过程交换信号。输入信号来自另一些神经细胞。这些神经细胞的轴突末梢（也就是终端）和本神经细胞的树突相遇形成突触（synapse），信号就从树突上的突触进入本细胞。信号在大脑中实际怎样传输是一个相当复杂的过程，但就我们而言，重要的是把它看成和现代的计算机一样，利用一系列的0和1 来进行操作。就是说，大脑的神经细胞也只有两种状态：兴奋（fire）和不兴奋（即抑制）。发射信号的强度不变，变化的仅仅是频率。神经细胞利用一种我们还不知道的方法,把所有从树突突触上进来的信号进行相加，如果全部信号的总和超过某个阀值，就会激发神经细胞进入兴奋（fire）状态，这时

4、就会有一个电信号通过轴突发送出去给其他神经细胞。如果信号总和没有达到阀值，神经细胞就不会兴奋起来。 2.2 生物神经网络处理过程人工神经网络( Artificial neural network, 简称ANN ) 就是要在当代数字计算机现有规模的约束下，来模拟这种大量的并行性, 并在实现这一工作时，使它能显示许多和人或动物大脑相类似的特性。模拟大脑的人工神经网络 ANN是由许多叫做人工神经细胞（Artificial neuron，也称人工神经原，或人工神经元）的细小结构模块组成。人工神经细胞就像真实神经细胞的一个简化版，但采用了电子方式来模拟实现。 2.3 人工神经网络概述

5、2.4 人工神经网络处理过程左边几个灰底圆中所标字母w代表浮点数，称为权重（weight，或权值，权数）。进入人工神经细胞的每一个input(输入)都与一个权重w相联系，正是这些权重将决定神经网络的整体活跃性。你现在暂时可以设想所有这些权重都被设置到了-和之间的一个随机小数。因为权重可正可负，故能对与它关联的输入施加不同的影响，如果权重为正，就会有激发（excitory）作用，权重为负，则会有抑制（inhibitory）作用。当输入信号进入神经细胞时，它们的值将与它们对应的权重相乘，作为图中大圆的输入。大圆的核是一个函数，叫激励函数(activation function

6、)，它把所有这些新的、经过权重调整后的输入全部加起来，形成单个的激励值(activation value)。激励值也是一浮点数，且同样可正可负。然后，再根据激励值来产生函数的输出也即神经细胞的输出：如果激励值超过某个阀值（作为例子我们假设阀值为 1.0），就会产生一个值为1的信号输出；如果激励值小于阀值1.0，则输出一个0。这是人工神经细胞激励函数的一种最简单的类型。自己创建了一个正常交易的数据集合，训练集大约包含10000条交易记录，测试集有1000条，每条交易记录由如下属性值所确定。用户ID 交易ID 交易描述交易金额交易x坐标交易y坐标一个用于确认交易是（tru

7、e）否（false）属于欺诈的二值变量 2.5 基于神经网络的欺诈检测目的很直接，就是创建一个分类器，能基于训练集的交易数据学习如何识别一个欺诈交易，一旦训练好分类器，就希望在来自同一个统计分布的测试集中检验它， 3.1. 数据预处理 3.2 使用Matlab实现神经网络 3.3 Matlab BP网络实例 3.4 结果分析 3 BP算法以及MATLAB实现在训练神经网络前一般需要对数据进行预处理，一种重要的预处理手段是归一化处理。下面简要介绍归一化处理的原理与方法。数据归一化：将数据映射到0,1或-1,1区间或更小的区间，比如(0.1,0.9) 。归一化的原因：输入数

8、据的单位不一样，有些数据的范围可能特别大，导致的结果是神经网络收敛慢、训练时间长。数据范围大的输入在模式分类中的作用可能会偏大，而数据范围小的输入作用就可能会偏小。 3.1 数据预处理由于神经网络输出层的激活函数的值域是有限制的，因此需要将网络训练的目标数据映射到激活函数的值域。例如神经网络的输出层若采用S形激活函数，由于S形函数的值域限制在(0,1)，也就是说神经网络的输出只能限制在(0,1)，所以训练数据的输出就要归一化到 0,1区间。 S形激活函数在(0,1)区间以外区域很平缓，区分度太小。例如S形函数f(X)在参数a=1 时，f(100)与f(5)只相差0.00

9、67。 Matlab中归一化处理数据可以采用 premnmx ， postmnmx ， tramnmx 这3个函数。使用Matlab建立前馈神经网络主要会使用到下面3个函数： newff ：前馈网络创建函数 train：训练一个神经网络 sim ：使用网络进行仿真 3.2 使用MATLAB实现神经网络本课题的目的主要是做欺诈检测，将数据集分为2组，每组各75个样本，分别对应着欺诈和正常消费。其中一组作为以上程序的训练样本，另外一组作为检验样本。为了方便训练，将欺诈和正常消费分别编号为1，2。使用这些数据训练一个3个输入（分别对应3个特征：位置，花费，描述），2个输出（分别

10、对欺诈消费和正常消费）的网络。 3.3 MATLAB BP网络实例 3.4 结果分析 4.1 神经网络欺诈检测器整体步骤 4.2 输入节点的选择及初始化 4.3 神经网络欺诈检测器剖析 4 课题研究的方案/方法 /加载训练集 TransactionDataset ds = TransactionLoader.loadTrainingDataset(); /统计每一个用户的消费习惯，将每个用户的消费基准线封装到UserStatistics类内 ds.calculateUserStats(); /创建一个分类器 NNFraudClassifier nnFraudClassifier = new

11、NNFraudClassifier(ds); nnFraudClassifier.setName(“MyNeuralClassifier“); /加载默认的分类属性 nnFraudClassifier.useDefaultAttributes(); 4.1 神经网络欺诈检测器整体步骤 /决定数据会在网络中传播的次数，在本例子中10次就很好了 nnFraudClassifier.setNTrainingIterations(10); /配置好参数，开始训练 nnFraudClassifier.train(); /把训练好的分类器实例存放到磁盘里 nnFraudClassifier.save()

12、; /通过分类器的文件名，加载已训练好的分类器 NNFraudClassifier nnClone = NNFraudClassifier.load(nnFraudClassifier.getName(); 金额: (amt-min)/(max-min) 地点：距离描述：相似度 4.2 输入节点的选择及初始化 4.3 神经网络欺诈检测器剖析金额地点描述输出输入计算输出误差期望值权值调整 1. 对权系数w置初值对权系数w(W1 W2 ，Wn ，Wn+1 )的各个分量置一个较小的零随机值 2.输入一样本X(X1 ，X2 ，Xn+1 )以及它的期望输出d。期望输出

13、值d在样本的类属不同时取值不同。如果x是A类，则取d1,如果x是B类，则取0 3.计算实际输出值Y Y= Wi Xi 根据实际输出求误差e e(d-y)*激活函数的导数 4.用误差e去修改权系数 Wi(t+1)=Wi(t)+*e*Xi 为学习率，不能太大，也不能太小。 5 课题研究的结果下图是没有引入噪音的运行结果：下图是引入噪音的运行结果：神经网络实质上实现了一个从输入到输出的映射功能，而数学理论已证明它具有实现任何复杂非线性映射的功能。这使得它特别适合于求解内部机制复杂的问题；神经网络能通过学习带正确答案的实例集自动提取“合理的”求解规则，即具有自学习能力；神经网络具有一定的推广、概括能力。 6 课题研究的提示谢谢！

展开阅读全文