基于R软件的车险欺诈识别

资源描述

《基于R软件的车险欺诈识别》由会员分享，可在线阅读，更多相关《基于R软件的车险欺诈识别（19页珍藏版）》请在金锄头文库上搜索。

1、企业资源管理与信息化大作业第2组基于R软件的车险欺诈识别1. 保险欺诈简介1.1保险欺诈定义保险欺诈国际上一般也称保险犯罪。严格意义上说，保险欺诈较保险犯罪含义更广。保险当事人双方都可能构成保险欺诈。凡保险关系投保人一方不遵守诚信原则，故意隐瞒有关保险标的的真实情况，诱使保险人承保，或者利用保险合同内容，故意制造或捏造保险事故造成保险公司损害，以谋取保险赔付金的，均属投保方欺诈。凡保险人在缺乏必要偿付能力或未经批准擅自经营业务，并利用拟订保险条款和保险费率的机会，或夸大保险责任范围诱导、欺骗投保人和被保险人的，均属保险人欺诈。保险欺诈一经实施，必然造成危害结果，有必要严加防范。1.2保险欺诈产

2、生原因1.2.1 主体本身问题保险主体有投保人、保险人和被保险人，由于之间的信息不对称，所以存在道德风险，这为欺诈提供了可能。投保人有可能会隐瞒标的真实信息；保险人因为更专业，所以可能在保险条款和宣传中暗藏玄机；被保险人则有可能为了获得更多的理赔费尽心机。在市场交易和合同关系中，这种信息不对称普遍存在，所以欺诈也普遍存在。主体多元化也是保险欺诈的一个因素。由于保险分成产险和人身险，人身险包括寿险、健康险、人身意外伤害险等，而产险有包括企业财产险、工程险、责任险、货运险、保证险、船舶险、家财险等险种。险种的多样化，参与主体就变得复杂，尤其是每一个险种有着巨大的市场受众，从而让风险变得很不好控制。

3、比如车险，目前中国的汽车保有量超过1.37 亿，每辆车肯定都买了保险，这么多的车主道德分数是否都合格？保险公司有没有不诚信？这些都很难说清楚。1.2.2 保险的特性射幸性除了保险主体的因素，保险合同的射幸性也是促成保险欺诈的一个因素。如果保险期间没有出险，被保险人会觉得自己的保费“白交了”，因此他会考虑减少保费，或者得到理赔。这样就会导致一些人机会性欺诈、夸大损失，或者无中生有“制造出险”，甚至职业性欺诈。1.2.3 管理问题保险公司方面，对保险中的核保、核赔过程不严谨，导致没有有效识别保险欺诈。另外，由于公司对欺诈的识别建设不够，加之保险欺诈识别成果行业不共享，将使欺诈不能有效识别，即使识别

4、出来，悲剧可能会在另外的保险公司上演。对业务人员的培训不够也是一个因素；另一方面业务人员的职业道德约束不够，保险欺诈有可能是“内鬼”所为。行业规范也有待加强，其中最重要的是对保险欺诈的惩罚。目前虽然有刑法、保险法等相关法律法规加以约束，但是对欺诈的惩罚较轻，欺诈成本低，使得有些人愿意铤而走险。1.3目前保险欺诈现状2014 年5 月，中国保险行业协会发布了2003 年以来十起反保险欺诈典型案例，并宣布将于9 月份成立反保险欺诈专业委员会，以预防和打击保险欺诈犯罪。据中保协消息，随着我国保险业的发展，保险欺诈案件呈逐年上升之势，保险欺诈呈现团伙化、专业化和职业化等特征，反欺诈形势日益严峻。1近年

5、来，我国保险欺诈活动频繁。据保监会数据，2013年各级稽查部门共累计查实违法违规资金23 亿元、违法违规行为118 项，对639 家机构和820 人实施1764 项次行政处罚，指导协调保险公司完成责任追究172 起案件，组织行业向公安机关移送涉嫌车险欺诈案件2375 起，涉案金额1.37 亿元，挽回经济损失7580 万元；对6.7 亿元股本资金来源、4531 家新设保险公司及其分支机构反洗钱制度进行反洗钱审查，对1 万多名高管进行反洗钱培训测试。2保险欺诈涉案金额占保险市场金额的比例高，对保险市场影响深远。2014 年5 月，据中保协工作人员表示，近年来我国保险欺诈案件呈逐年上升趋势，跨境案例

6、增多。在保险中车险欺诈占比最高，约占50%至70%。在寿险中，高额意外险是重点领域。3在国际上，保险诈骗金额约占赔付总额的10%30%。某些险种的欺诈金额占比甚至高达50%。保险欺诈已成为世界各国保险业不得不面对的共同难题。一直以来，我国重视对保险欺诈的法制规范，随着目前形势的严峻有加强之势。对于保险活动的规范，除了保险法、刑法、民法通则、合同法、证券法、保险公司管理规定、道路交通安全法及其实施条例、交强险条例、关于规范人身保险经营行为有关问题的通知等一系列相关文件，近年来也根据形势，推出了一系列相关规定或解释。2保险欺诈识别针对保险欺诈向全球蔓延，研究方法开始由定性研究向实证研究过渡。早期的

7、识别模型主要是以Logit模型为主。Artis、Ayuso和Guillen建立了AAG欺诈识别模型。Caudill建立了多项分对数模型。Ridit模型通过建立标准组，将其他组的数据与之做对比来计算R值。我国学者叶明华运用Logit回归分析对识别因子进行精炼，将BP神经网络应用在车险欺诈识别中，得到了更高的准确率3。但在实际操作中，有两种原因造成准确率发生偏差。一种是数据样本小，缺乏对于现实中包含微弱信息的大型数据库的数据分析。另一种是以理想的数据平衡状态作为研究背景，且现有分类器的设计都是基于类分布大致平衡这一假设，脱离实际4。针对现实世界中广泛存在不平衡数据这一事实，本研究利用随机森林对欺诈

8、进行识别预测，并同Logistic算法进行对比。3 算法简介3.1 随机森林随机森林，顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。由上不难看出，决策树是随机森林的基础，所以首先介绍决策树。3.1.1 决策树决策树实际上是将空间用超平面进行划分的一种方法，每次分割的时候，都将当前的空间一分为二，比如说下面的决策树：就是将空间划分成下面的样子：这样使得每一

9、个叶子节点都是在空间中的一个不相交的区域，在进行决策的时候，会根据输入样本每一维feature的值，一步一步往下，最后使得样本落入N个区域中的一个（假设有N个叶子节点）。决策树生长的核心是确定决策树的分枝准则：n 如何从众多的属性变量中选择一个当前的最佳分支变量；也就是选择能使异质性下降最快的变量。异质性的度量：GINI、TWOING、least squared deviation。前两种主要针对分类型变量，LSD针对连续性变量。n 如何从分支变量的众多取值中找到一个当前的最佳分割点（分割阈值）。分割阈值：A、数值型变量对记录的值从小到大排序，计算每个值作为临界点产生的子节点的异质性统计量。能

10、够使异质性减小程度最大的临界值便是最佳的划分点。B、分类型变量列出划分为两个子集的所有可能组合，计算每种组合下生成子节点的异质性。同样，找到使异质性减小程度最大的组合作为最佳划分点。n 决策树停止生长的条件满足以下一个即停止生长。（1）节点达到完全纯性；（2）数树的深度达到用户指定的深度；（3）节点中样本的个数少于用户指定的个数；（4）异质性指标下降的最大幅度小于用户指定的幅度。3.1.2 随机森林简介随机森林利用随机的方式将许多决策树组合成一个森林，每个决策树在分类的时候投票决定测试样本的最终类别。下面我们再详细说一下随机森林是如何构建的。随机森林主要包括4个部分：随机选择样本；随机选择特征

11、；构建决策树；随机森林投票分类。随机选择样本给定一个训练样本集，数量为N，我们使用有放回采样到N个样本，构成一个新的训练集。注意这里是有放回的采样，所以会采样到重复的样本。详细来说，就是采样N次，每次采样一个，放回，继续采样。即得到了N个样本。然后我们把这个样本集作为训练集，进入下面的一步。随机选择特征在构建决策树的时候，我们前面已经讲过如何在一个节点上，计算所有特征的Information Gain（ID3）或者 Gain Ratio（C4.5），然后选择一个最大增益的特征作为划分下一个子节点的走向。但是，在随机森林中，我们不计算所有特征的增益，而是从总量为M的特征向量中，随机选择m

12、个特征，其中m可以等于sqrt(M)，然后计算m个特征的增益，选择最优特征（属性）。注意，这里的随机选择特征是无放回的选择！所以，随机森林中包含两个随机的过程：随机选择样本，随机选择特征。构建决策树有了上面随机产生的样本集，我们就可以使用一般决策树的构建方法，得到一棵分类（或者预测）的决策树。需要注意的是，在计算节点最优分类特征的时候，我们要使用上面的随机选择特征方法。而选择特征的标准可以是我们常见的Information Gain（ID3）或者 Gain Ratio（C4.5）。随机森林投票分类通过上面的三步走，我们可以得到一棵决策树，我们可以重复这样的过程H次，就得到了H棵决策树。

13、然后来了一个测试样本，我们就可以用每一棵决策树都对它分类一遍，得到了H个分类结果。这时，我们可以使用简单的投票机制，获得该测试样本的最终分类结果。随机森林优缺点分析优点：n 它能够处理很高维度（feature很多）的数据，并且不用做特征选择；n 由于随机选择样本导致的每次学习决策树使用不同训练集，所以可以一定程度上避免过拟合；过拟合（overfittingt）是这样一种现象：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在训练数据外的数据集上却不能很好的拟合数据。缺点：n 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合；n 对于有不同级别的属性的数据，级别划分较多的属性

14、会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的3.2 逻辑回归Logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于它们的因变量不同，其他的基本都差不多。正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalizedlinear model）。这一家族中的模型形式基本上都差不多，不同的就是因变量不同。n 如果是连续的，就是多重线性回归；n 如果是二项分布，就是Logistic回归；n 如果是Poisson分布，就是Poisson回归；n 如果是负二项分布，就是负二项回归。Logistic回归的因变量可以是二分类的，也可以是多分

15、类的，但是二分类的更为常用，也更加容易解释。所以实际中最常用的就是二分类的Logistic回归。3.2.1 Logistic回归的主要用途：寻找危险因素：寻找某一疾病的危险因素等；预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大；判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病。3.2.2常规步骤Regression问题的常规步骤为：寻找h函数（即hypothesis）；构造J函数（损失函数）；想办法使得J函数最小并求得回归参数（）n 构造预测函数hLogistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题（即输出只有两种，分别代表两个类别），所以利用了Logistic函数（或称为Sigmoid函数），函数形式为：对于线性边界的情况，边界形式如下：构造预测函数为：函数的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：n 构造损失函数JCost函数和J函数如下，它们是基于最大似然估计推导得到的。

展开阅读全文

基于R软件的车险欺诈识别

最新文档