数学建模医保欺诈模型的主动发现资料

资源描述

《数学建模医保欺诈模型的主动发现资料》由会员分享，可在线阅读，更多相关《数学建模医保欺诈模型的主动发现资料（13页珍藏版）》请在金锄头文库上搜索。

1、全国大学生数学建模竞赛选拔赛承诺书我们完全明白，在竞赛开始后参赛队员不能以任何方式（包括电话、电子邮件、网上咨询等）与队外的任何人（包括指导教师）研究、讨论与赛题有关的问题。我们知道，抄袭别人的成果是违反竞赛章程和参赛规则的，如果引用别人的成果或其他公开的资料（包括网上查到的资料），必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺，严格遵守竞赛章程和参赛规则，以保证竞赛的公正、公平性。如有违反竞赛章程和参赛规则的行为，我们将受到严肃处理，并取消参赛资格。我们参赛选择的题号是（从A/B/C/D中选择一项填写）： A 参赛队员 (打印后再手签):：1. 2. 3.

2、指导教师或指导教师组负责人 (没有可不填写)：（论文纸质版与电子版中的以上信息必须一致，只是电子版中无需签名。以上内容请仔细核对，提交后将不再允许做任何修改。如填写错误，论文可能被取消评奖资格。）日期： 2015 年 7 月 29 日医保欺诈的主动发现摘要医疗保险是关系到国计民生和国家发展的重大问题，医保欺诈问题严重威胁医保基金安全，妨碍医保政策的有效实施，因此医保欺诈行为的主动发现对医疗保险的发展、完善和社会稳定发展有重大的意义。本提出了一种基于BP神经网络的识别的鉴别医保欺诈行为的方法。对于数据的处理，我们选择了Excel和Access根据病人ID将表2.1病人资料和表2.2费用明细

3、表进行了汇总和归一，并剔除了包括记录不完整、格式错误之内的无效数据，在这个过程中我们发现了所有的消费记录只是买药，并且在这个月的消费记录中只有极少数病人存在转科室行为，而且一部分病人是自费的，没有医保欺诈嫌疑，还有一些病人存在多人共用医保卡的现象，直接确定其为医保欺诈，这些病人的消费记录为我们训练BP神经网络提供了样本支持。对于这个问题，我们首先用Excel和Access从大量的数据中筛选出了对欺诈识别有用的信息，其中包括病人的年龄，性别，所在科室，当月总消费以及当月消费频率等等你，又考虑到不同科室的消费情况存在差异因此我们求出了各个科室的平均消费额，并且做出了每个病人当月的消费对对应科室平均

4、消费的相对差。有了这些欺诈因子和自费患者以及共用医保卡患者的消费记录，我们建立了Logistic二元回归模型，来评估各个欺诈因子对欺诈的可能性大小的影响进而剔除了对欺诈可能性无效的欺诈因子，保留了对欺诈可能性影响显著的欺诈因子作为输入向量对BP神经进行训练，并且用训练后的网络对医保病人进行了欺诈识别。最终我们认为输出结果为1的病人具有重大医保欺诈嫌疑。关键词医保欺诈 Logistic二元回归 BP神经网络数据一、问题重述1.1 问题背景医疗保险是为解决公民或劳动者因为疾病和非因公负伤，丧失劳动能力后的治疗费用及服务，给予物质帮助的一种社会保险制度。医疗保险欺诈行为是指违反医疗保险管理法规和

5、政策，采用虚构事实、隐瞒真相以及其他方法，向医保基金管理机构骗取医保基金或医保待遇的行为。这一行为具有两个基本特征：一是主观表现为直接故意，并且以非法占有医保基金或非法获得医保待遇为目的，二是实施手段主要是通过虚构事实和隐瞒真相，即故意虚构未曾发生的保险事故，或者对发生的保险事故编造虚假的原因或者夸大损失程度，以达到骗取医疗保险基金或医疗保险待遇的目的。我国自城镇职工医疗保险和新农村合作医疗制度实施以来，欺骗医保基金的案件不断发生，事实上，医疗保险欺诈在许多国家每年都有数亿美元的损失，对医保基金安全构成了重大的威胁，妨碍了各国医保政策的实施，因此医疗保险欺诈已成为各国非常重视的社会问题利用数学

6、建模的方法分析医疗保险欺诈行为，建立相应的数学模型可为发现医疗保险欺诈问题提供科学有力的依据。1.2 问题描述医疗保险欺诈行为具有两个基本特征：一是主观表现为直接故意，并且以非法占有医保基金或非法获得医保待遇为目的；二是实施手段主要是通过虚构事实和隐瞒真相，即故意虚构未曾发生的保险事故，或者对发生的保险事故编造虚假的原因或者夸大损失程度，以达到骗取医疗保险基金或医疗保险待遇的目的。骗保人进行医保欺诈时通常使用的手段有冒用他人医疗保险证、卡就医；异地就医人员伪造或虚开医疗票据回来报销；“挂床”住院就医；要求医院开具本人不必要的诊疗项目或药品，由他人代作或代用等。下面这些情况都有可能是医保欺诈：单

7、张处方药费特别高，一张卡在一定时间内反复多次拿药等。二、问题分析BP神经网络是一种按误差你传播算法训练的前馈网络，学习过程由信号的正向传播与误差的逆向传播两个过程组成. 正向传播时, 模式作用于输入层, 经隐层处理后, 传入误差的逆向传播阶段, 将输出误差按某形式, 通过隐层向输入层逐层返回, 并“分摊”给各层的所有单元, 从而获得各层单元的参考误差或称误差信号, 以作为修改各单元权值的依据. 权值不断修改的过程, 也就是网络学习过程. 此过程一直进行到网络输出的误差准逐渐减少到可接受的程度或达到设定的学习次数为止。目前BP神经网络已在国内外相关经济研究领域得到广泛应用，在国内的证券、银行等

8、相关领域已有学者开始运用BP网络进行研究，叶明华将该方法运用到机动车保险欺诈的研究当中，并且尝试了统计回归与神经网络的融合，证实了神经网络运用于保险欺诈的识别是可行的，并且通过回归分析精炼后的识别因子能够使神经网络具有更好的识别效果。在这个问题中，数据量巨大，同时自费患者和欺诈患者（共用医保卡）提供了大量的样本，而这些样本恰好可以用于BP神经网络的训练，同时还可以用Logistic二元回归分析筛选出影响显著的欺诈因子，将定量与定性相结合，使结果更准确。因此，对于这个问题，运用层次分析法和Logistic二元回归分析相结合的方法进行医保欺诈的识别。三、模型假设1.自费病人无医保欺诈嫌疑2.消费

9、总额和消费数量为负数的视为记录错误，取绝对值计算3.忽略这个月内极少数病人转科室治疗的情况4.这个月当地没有地震等重大灾难的发生四、模型的建立与求解4.1 预处理数据4.1.1 样本与欺诈因子选取根据附录表格2.1和2.2中的病人资料和消费记录中使用Excel和Access的数据处理函数，结合相关资料，先做出各个科室的平均消费额，然后提取出包括病人科室，病人所在科室的平均消费额，病人当月总费用，当月拿药频次，年龄，性别在内的6个欺诈因子，并将这些欺诈因子整合到病人ID中，表格见附件1。表4.1 欺诈因子汇总表医保病人ID病人科室各科室平均消费额当月拿药频次当月总费用年龄性别36305015

10、220.1960112942220.0529 162769018732.1121484643160.2552 116879915220.1960112961018.2946 2178614203170.46705697510.2496 226497218732.1121484651314.2629 219905618732.1121484661255.1246 252473815220.196011293721.5148 240626015220.196011294643.5248 116730518732.112148466913.2747 133196818732.112148468894

11、.1330 2161213173151.356301953752.6577 16126571095.2881589712354.6832 14.1.2 自费病人与医保卡共用病人从题目表2.1 病人资料医保卡号一栏中筛选出医保卡号为1的病人，提取出他们的病人ID并确定他们为自费病人。对医保卡号一栏运用COUNTIF函数筛选一卡多用病人发现存在2人共用医保卡以及3人共用医保卡的现象，提取出他们的ID并确定其为共用医保卡病人。分别根据自费病人以及医保卡共用病人的ID作出如表格4.2的欺诈因子汇总表便于进一步分析。4.2 欺诈因子的精炼运用二元离散选择模型对选取的6个欺诈因子进行回归分析，从中获取具有

12、显著性的欺诈因子，我们通过IBM SPSS Statistics 19软件实现样本数据的Logistic二元回归分析。参数设定为：方法：Enter步进概率：进入=0.05，删除=0.1；最大迭代次数: 50Exp(B)的C.I.(X): 95%。表4.2 迭代历史记录迭代-2 对数似然值系数Constant步骤 017647.606-1.93524584.590-2.93133917.985-3.64543832.549-4.01353829.783-4.09563829.779-4.09873829.779-4.098a. 模型中包括常量。b. 初始 -2 对数似然值: 3829.779c.

13、因为参数估计的更改范围小于 .001，所以估计在迭代次数 7 处终止。表4.3为迭代历史记录，估计在迭代7次后终止，初始的-2对数似然值达到43.927。表4.3分类表已观测已预测欺诈与否百分比校正01步骤 0欺诈与否0225850100.013750.0总计百分比98.4a. 模型中包括常量。b. 切割值为 .500在表4.4中可见在输入的样本中有22585例被预测为0，有375例应该为1的也被预测为0，预测正确率98.4%。表4.4 显著性检验得分dfSig.步骤 0变量相对差1.6241.202当月总费用7.6071.006当月拿药频次1.4011.237年龄10.6761.001性别(1)63.6741.000病人科室216.1201.000各科室平均消费额18.7101.000总统计量300.1287.000表4.5是对模型的全局检验，为似然比检验，共给出七个结果：sig值0.05表明有统计学意义。从中可见病人当月总费用，年龄，性别，病人所在科室以及病人所在科室的平均消费额对回归具有显著影响，而其他因素没有影响。根据这个结论就可以建立医保欺诈识别的BP网络模型。4.3 医保欺诈识别的BP网络模型1)设置初始权值W(0)为较小的随机非零值。2)给定输入/输出样本集合,up,dpp

展开阅读全文

数学建模医保欺诈模型的主动发现资料

最新文档