医保欺诈行为的主动发现(电子)

资源描述

《医保欺诈行为的主动发现(电子)》由会员分享，可在线阅读，更多相关《医保欺诈行为的主动发现(电子)（17页珍藏版）》请在金锄头文库上搜索。

1、1医保欺诈行为的主动发现摘要医保欺诈行为，是指以非法占有为目的，用虚构事实或者隐瞒真相的方法，骗取公私财物的行为。医保欺诈，可以从病人资料，消费明细等数据记录来体现。本文主要通过分析记录的数据，找出可能的医保欺诈行为。总结出欺诈行为的数据特征，以便判断是否是医保欺诈。首先，根据已有文献，对涉嫌诈骗行为进行分析，找出所给数据中对应数据，然后采用多元统计分析方法进行分析，主要使用 SPSS 软件中标识重复个案、K 均值聚类分析、相关分析的方法，若个案重复次数过多以及聚类的案例数较少，则可能为欺诈。针对数据一病人资料，我们从三方面分析，一方面对病人身份证号进行标记重复个案，发现重复个案占总数的 4

2、.1%，；另一方面对于医保手册号同样采取标记重复个案的方法，从结果可以看出重复个案占 0.3%；最后，对 Userupdate（用户更新次数）进行 K 均值聚类分析，发现第 1 类的聚类中心数大（即更新次数多）占总案例数的8%。以上三种数据特征则表示极可能是医保欺诈行为。针对数据二费用明细表，我们也从三方面考虑。首先，单张处方的总价过高可能为欺诈，但是考虑到总价与单价、数量之间的相互影响，对此我们先对单价、数量、总价进行相关分析，发现单价与总价呈弱相关；然后用聚类分析对医嘱子类、单价、数量、总价进行分类，案例数少的类即有欺诈嫌疑；其次，对病人 ID 号标记重复个案，由于重复个案所占比例较大，

3、对重复个案进一步进行了聚类分析；最后，若下医嘱科室与病人科室不一致则可能为欺诈，对此我们绘制了简单线图，不在 y=x 直线上的即为欺诈记录。最后分析了所建立模型的优缺点，并在所提模型基础上进一步建立预测欺诈的程序框图，以便在真实数据的基础上能快速筛查是否为医保欺诈行为。关键词：医保欺诈 k 均值聚类标识重复个案相关分析 SPSS2一、问题的重述医疗保险欺诈，是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中，故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段，一是拿着别人的医保卡配药，二是在不同的医院和医生处重

4、复配药。下面这些情况都有可能是医保欺诈：单张处方药费特别高，一张卡在一定时间内反复多次拿药等。请根据附件中的数据，找出可能的欺诈记录。二、模型的假设在我们的模型中做了如下假设：1.假设数据来源真实有效;2.假设分析过程中，数据无缺失;3.假设对每个聚类分析结果，使用同一评判标准.三、符号说明本文用到的符号及其意义见下表： ijx变量js标准方差)(IZj初始聚类中心,xDji样本与聚类中心的距离JC误差平方和准则函数2ijd欧式距离)1(IZj新聚类中心rPearson 相关系数tPearson 相关系数检验统计量3四、模型的建立与求解因为单张处方药费特别高一张卡及在一定时间内反复多次拿药可能

5、涉嫌医保欺诈，故分别采用标记重复个案、聚类分析、相关性分析的方法对病人资料及费用明细进行分析。4.1 基于病人资料的医保欺诈行为主动发现4.1.1 问题的分析判断是否为医保欺诈行为，需要从病人资料中的身份证号、医保手册号、Userupdate（用户更新次数）这三方面考虑。对此利用 SPSS 软件使用标识重复个案、聚类分析的方法，通过分析运行结果，做出重复个案与主个案所占比例、聚类中两类所占比例的饼状图。通过饼状图，可直观看出，所占比例的小的可能为欺诈记录。4.1.2 模型的建立:标识重复个案与聚类分析标识重复个案：当输入大量数据时，有时候会意外地出现输入同一条记录多次；或同一条记录的某部分多次

6、出现，即多个个案具有相同的主标识值，但它们有不同的次标识值（比如，同一个身份证号有多个不同的序列号）。另外一种出现重复个案的情况是，多个个案代表同一个案，但是除这些个案的标识变量取值相同之外，其他变量的取值不同。聚类分析：对 Userupdate（变量）的标识重复个案的结果，进行分类主要采用聚类分析法，1而求取类之间的距离有多种方法，其中最常用的是欧几里德距离。（1）数据标准化由于所选数据的量纲和数值大小都不一致，数值的变化范围也不同，因此必须首先对所选数据进行标准化处理，如果有个样本，个指标，则每个变量可表示为，均nmijx值 1njijx标准方差 21nj ijijisx则标准化

7、后 *0ijjij jxs（2）聚类系统聚类;，将个重复个案结果各自看成一类，然后规定样本之间的距离和类与类之n间的距离。开始，因每个结果自成一类，类与类之间的距离与个案之间的距离是相等的，选择距离最小的一对并成一个新类，计算新类与其他类的距离，再将距离最近的两类合并，这样每次少一类，直至所有的个案都成一类为止，最终完成分类。4设有 n 个样本，令 I=1，选取 K 个初始聚类中心：；kjIZj,.21),(计算每一个数据样本与聚类中心之间距离： niIZxDji ,.21),(,如果满足，则；iIZxDjiji ,.,(min)(, kiwx计算误差平方和准则函数 JC，公式如下：

8、 21)()(kjnjjkj IZxIJC判断是否满足聚类算法结束条件：如果，则表示算法结束，否)1()(IJCI则，I=I+1，计算下一个新的聚类中心，并返回,新的聚类中心计算公式如下： kjXnIZkiijj ,.21,1)( 距离：对重复个案结果进行聚类时，“靠近”往往由某种距离来刻画。令表示第个重复个案结果的第个指标，表示第个重复个案与第个重复个案ijxi jijdij之间的距离，最常见计算距离的方法是：欧几里德距离即为欧氏距离1/212pijikjdx4.1.3 模型的求解（1）用 SPSS 中标记重复个案对身份证号有重复个案的记录进行统计，由于有些数据无记录，因此只统

9、计了有记录的数据，结果见图 1。图 2 为根据统计结果绘制的饼状图。图 1 病人身份证号重复个案统计表5图 2 病人身份证号重复个案统计表（2）用标识重复个案对医保手册号有重复个案的记录进行统计，图表中记录为“1”的数据认为是无医保病人，则不可能出现医保欺诈，将此部分数据算作为主个案，不认为是重复个案，结果见图 3。图 4 为根据统计结果绘制的饼状图。所有最后一个匹配个案的指示符为主个案频率百分比有效百分比累积百分比重复个案 188 .3 .3 .3主个案 57830 99.7 99.7 100.0有效合计 58018 100.0 100.0图 3 医保手册号重复个案统计表6图 4 医保

10、手册号重复个案饼状图（3）用 SPSS 中 k 均值聚类分析对 Userupdate（用户更新次数）进行分类，最终聚类中心结果见图 5，图 6 为每个聚类的案例数，图 7 为根据最终聚类中心结果绘制的饼状图。图 5 最终聚类中心统计表图 6 每个聚类的案例数7图 7 最终聚类中心饼状图4.1.4 模型结果分析（1）由图 1 结果统计表中可知，身份证号总记录为 35176 个（删除掉无效记录后），重复个案的记录有 1437 个，所占比例为 4.1%；图 2 直观看出重复个案所占比例的大小。从侧面反应出同一病人在一定时间内多次使用医保。（2）由图 3 的表中，可以看出医保手册号总记录为 5801

11、8 个，重复个案的记录有 188个，占总数的 0.3%；图 4 中可明显看出表示有效重复个案的蓝色区域是极小的。此分析结果表明一定时间内医保手册号重复使用次数过多的占总体的 0.3%，这些记录表现极可能是医保欺诈行为。（3）从图 5 中看出，将 Userupdate（用户更新次数）分为两类，最终聚类中心分别为4141 和 859；图 6 显示每个聚类的案例数，可以看出第 1 聚类的案例数很少，占总案例数的 8.1%，表明更新次数过多有可能是欺诈行为。4.2 基于费用明细的医保欺诈行为主动发现4.2.1 问题的分析医疗保险欺诈行为，通过分析病人的费用明细表中的各项数据也可以找出可能的欺诈行为表现

12、，主要从单张处方的总价过高、病人 ID 号是否重复过多、下医嘱科室与病人科室是否一致这三个方面考虑。在附件给出的表 2 中，通过对各个变量进行 K 均值聚类分析，可以将数据分为几类，案例数少的则可能是欺诈行为。但是考虑到单价、数量、总价之间的相互影响，对此我们使用了 SPSS 中相关性分析找出三个变量的相关性，并用图标构建程序绘制了简单 3-D 散点图。对于病人 ID 号与模型一的分析一样，使用标记重复个案的方法，找到重复的记录，即可能为医保欺诈行为。而下医嘱科室与病人科室应该是一致的，若不一致即为欺诈，因此对下医嘱科室和病人科室绘制简单线图。84.2.2 模型的建立:聚类分析与相关性分析聚类

13、分析：（1）数据标准化由于所选数据的量纲和数值大小都不一致，数值的变化范围也不同，因此必须首先对所选数据进行标准化处理，如果有个样本，个指标，则每个变量可表示为，均nmijx值 1njijx标准方差 21nj ijijisx则标准化后 *0ijjij jxs（2）聚类 2系统聚类;，将个样本结果各自看成一类，然后规定样本之间的距离和类与类之间的n距离。开始，因每个结果自成一类，类与类之间的距离与个案之间的距离是相等的，选择距离最小的一对并成一个新类，计算新类与其他类的距离，再将距离最近的两类合并，这样每次少一类，直至所有的个案都成一类为止，最终完成分类。设有 n 个样本，令 I=1，选

14、取 K 个初始聚类中心：；kjIZj,.21),(计算每一个数据样本与聚类中心之间距离： niIZxDji ,.21),(,如果满足，则；iIZxDjiji ,.,(min)(, kiwx计算误差平方和准则函数 JC，公式如下： 21)()(kjnjjkj IZxIJC判断是否满足聚类算法结束条件：如果，则表示算法结束，否)1()(IJCI则，I=I+1，计算下一个新的聚类中心，并返回,新的聚类中心计算公式如下： kjXnIZkiijj ,.21,1)( 距离：对重复个案结果进行聚类时，“靠近”往往由某种距离来刻画。求取类之间的距离有多种方法，其中最常用的是欧几里德距离。9令表示第

15、个重复个案结果的第个指标，表示第个重复个案与第个重复个案ijxi jijdij之间的距离，最常见计算距离的方法是：欧几里德距离即为欧氏距离1/212pijikjdx相关性分析：相关分析是描述两个变量间关系的密切程度，主要由相关系数值表示，当相关系数的绝对值越接近于1，则表示两个变量间的相关性越显著。双变量系数测量的主要r指标有卡方类测量、Spearman相关系数、pearson相关系数等，在进行两者间的相关性检验时用pearson相关系数来判断，其公式为： 22()()iiiixyrPearson简单相关系数检验统计量为： 21rnt其中统计量服从个自由度的分布。t2n4.2.

16、3 模型的求解（1）考虑到单价、数量、总价之间的相互影响，对这三个变量进行了双变量相关分析，图8 为三个变量的相关性分析统计表，图 9 单价、数量、总价的简单 3-D 散点图。图 8 单价、数量、总价相关性分析统计表10图 9 单价、数量、总价的简单 3-D 散点图（2）用 k 均值聚类分析对医嘱子类、单价、数量、总价进行聚类。最终聚类中心结果见图 10，图 11 是这四个变量的单因素方差分析表，图 12 为每个聚类的案例数，图 13 是根据图 12 的结果绘制的简单条形图。图 10 医嘱子类、单价、数量、总价的最终聚类中心图 11 医嘱子类、单价、数量、总价的单因素方差分析11图 12 医嘱子类、单价、数量、

展开阅读全文