医疗保险欺诈的_主动识别

资源描述

《医疗保险欺诈的_主动识别》由会员分享，可在线阅读，更多相关《医疗保险欺诈的_主动识别（35页珍藏版）》请在金锄头文库上搜索。

1、01问题的重述问题的重述医疗保险欺诈，是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程中，故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段，一是拿着别人的医保卡配药，二是在不同的医院和医生处重复配药。下面这些情况都有可能是医保欺诈：单张处方药费特别高，一张卡在一定时间内反复多次拿药等。请根据附件中的数据，找出可能的欺诈记录。2问题的分析问题的分析题目的意图很明确，就是要我们通过数学建模的手段找出医疗保险欺诈的记录。通过对给出数据的观察和分析，我们发现这几个表里面有很多栏都是空白，而且有些信息记录与本

2、次建模没有联系，所以首先必须要将到数据库中，通过数据库语言对表进行合理的处理，整合到一张表里。接着应该选取一些欺诈识别因子，即初步选取能刻画欺诈特征的一些可测信息点确定识别指标。为了能对这些因子进行评价判断，应该要抽取一部分记录作为初步的样本。接下来就得通过统计回归方法检验指标的有效性，并从中选取显著有效的欺诈识别因子作为解释变量；通过建立 BP 神经网络模型进行欺诈识别，选取学习样本训练神经网络，并选取检验样本检验网络模型的有效性，即通过网络计算欺诈概率，并同事先确定的阈值进行比较，当欺诈概率超过该阈值时即视为疑似欺诈案件，在实际中确定为疑似欺诈的案件进入特殊处理程序，进一步调

3、查。3模型的假设与符号说明模型的假设与符号说明3.1 模型的假设模型的假设（1）假设医保手册号为 1 的病人都是不享受医疗保险的；（2）假设医嘱数量和费用为负数是输入错误,将所有负数变为正数；（3）假设所有数据来源真实不存在篡改的情况。1aix1L0Lbi iy3.2 符号说明符号说明p事件发生的概率，存在医保欺诈概率为 1 第 i 个识别因子回归方程的似然函数值引入解释变量后似然函数 N样本容量第 i 个自变量的回归系数第 i 个案例的判定概率识别因子中最大值识别因子中最小值 M为隐层节点数4模型的准备模型的准备通过对附件里的数据进行观察可以很容易发现，有很多表格里的栏目内容为

4、空，还有就是有些信息对本次建模没有帮助，所以在建立模型前，有必要将原始数据进行筛选处理。通过将数据导入数据库，利用数据语言对数据进行处理（详见附录 1）具体处理内容如下：（1）对于表 2.1 病人资料的处理通过查找观察，发现如 VIP 标志 PAPMIVIPFlag、备注 PAPMIRemark 等栏目为空，可进行删除；利用出生日期，计算出病人在 2014 年的年龄；将性别 PAPMI_SEX_DR 为男为 1,女为 0；对于是否死亡 PAPMI_DECEASED，死亡了的病人设为 1，未死亡的设为 0；对于手机号 PAPMI_MOBPHONE，将有手机号的病人设为 1，没有手机

5、号的病人设为 0；对于医保手册号 PAPMI_Name3，将有医保手册的人设为 1，没有医保手册号的人设为 0，将没有医保手册号的病人删除，因为没有医保手册号的病人是不享受医保。（2）对于表 2.2 病人资料费用明细此表是所有表中有用信息最多，且是最为重要的表。选取里面下医嘱科室 WORKLOAD_RECDEP_DR、医嘱数量 WORKLOAD_QUANTITY、执行科室 WORKLOAD_RECDEP_DR、下嘱医生 WORKLOAD_RESDOC_DR、核算分类 WORKLOAD_TAREC_DR、费用 WORKLOAD_TOTALPRICE、单价 WORKLOAD_UNITPRIC

6、E 等信息，放入新表中；利用数据库语言，将医嘱日期 WorkLoad_OrdDate 到结算日期 WorkLoad_FlagDate 的时间间隔求出来。（3）对于表 2.3、2.4、2.5、2.6 进行处理由于这四张表里面的信息有些过于详细，有很多都是空的信息，所以在本次建模中这四个表只用于参照和核对，不直接用于建模的数据引用和处理。通过以上的方法可以得出一张新的数据表，表的大概情况如下：2表表 1 1 数据处理后形成的新表数据处理后形成的新表医保对象购药记录年龄病例号医保手册号性别是否死亡17861435963074960600783300工作单位执行科室下医嘱科室医嘱数量下医嘱医生

7、手机号账单号019320370132605060035核算分类费用单价时间间隔医嘱子类 31.750.025025医保对象购药记录年龄病例号医保手册号性别是否死亡 22568436087446440151935000工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号1191133179405066057核算分类费用单价时间间隔医嘱子类 11181180155模型的建立与求解模型的建立与求解5.1 logit 回归模型回归模型5.1.1 模型有效性检验模型有效性检验与一般的线性模型类似，logit 模型也需要对模型进行检验和评价，同样分为回归的显著性检验、回归系数的显著性检验和模型拟合度

8、评价。5.1.1.1 logit 模型回归方程整体显著性检验模型回归方程整体显著性检验logit 模型回归方程的显著性检验用于检验用于检验 logitP 与所有变量之间的线性关系是否显著，检验的原假设为各回归系数为零，备选假设为各回归系数不同时为零。常用的检验方法有对数似然比检验和 Housmer-Lemeshow 检验。（1）对数似然比检验假设没有引入任何解释变量，即方程仅包含常数项时，回归方程的似然函数值为,引入解释变量后似然函数为，则似然比为。显然，似然比值为，且值越0L1L10 LL10接近 1 表明模型中解释变量对模型总体没有显著影响；反之，越接近 0 表明引入解释变量对模

9、型具有显著影响。构造如下似然比卡方统计量： 10210ln2lnLL LL可以证明，在原假设成立时，该统计量服从自由度为的卡方分布，为引入模kk 型变量的个数。SPSS 会自动给出似然比卡方统计量及其概率 p 值。若 p 值小于给定的显著性水平，则拒绝原假设，认为回归方程整体显著；反之，认为回归方程不显著。（2）Housmer-Lemeshow 检验通过二元 logit 回归计算给定解释变量时被解释变量取值为 1 时的概率，若实际值3为 1 的样本预测概率相对较高而实际值为 0 的样本预测值概率的大小将所有样本分为了 m 组，得到 Housmer-Lemeshow 检验的随机表。Ho

10、smer-Lemeshow 统计量服从自由度为(m-2)的卡方分布。SPSS 能够给出 Hosmer-Lemeshow 卡方统计量及相应概率 p，当 p 小于给定显著性水平时，拒绝原假设，认为模型整体显著。5.1.1.2 回归系数显著性检验回归系数显著性检验在二元 logit 回归模型中，回归系数的显著性检验是通过构造 Wald 统计量进行。原假设为，Wald 统计量数学表达式为：0 j ) (2jSWaldj j 在满足原假设条件时，Wald 统计量服从自由度为 1 的卡方分布。SPSS 能够自动计算 Wald 统计量及其对应概率 p 值，通过比较第 j 个 Wald 统计量对应 p

11、值和给定的显著性水平即可以判定第 j 个回归系数是否显著。当 p 值小于给定显著水平时，认为第 j 个回归系数显著不为零，否则，认为其显著为零。5.1.1.3 模型拟合优度评价模型拟合优度评价二元 logit 模型拟合优度评价常用的统计量包括 Cox-Snell 统计量和 Nagelkerke 2R 统计量。2R 其中 Cox-Snell 统计量数学定义为：2RNLLSnellRCox21021 其中，为没有引入任何解释变量的回归方程的似然函数值，为引入解释变量0L1L后的回归方程似然函数值，N 为样本容量，类似于一般线性回归的统计量，其值越2R 大表明模型拟合度越高。 Nagelkerk

12、e 统计量数学定义为：2R NLSnellRCox202 21R Nagelkerke Nagelkerke 统计量是 Cox-Snell 统计量的修正，使得其取值范围限定为2R2R 01，其值越接近于 1 表明模型拟合度越高。5.2 logit 模型建立模型建立我们把事件发生的情况定义为 1，事件未发生的情况定义为 0。这样在保险欺诈识别模型中，取值为 0、1 的因变量可以写作：，非非医医疗疗欺欺诈诈医医疗疗欺欺诈诈0, 1我们通常以表示事件发生的概率（则事件未发生的概率为），并把看作pp 1p 自变量的函数。在本论文中，医疗保险是医疗欺诈的概率为。xp 对于是 0-1 型 Bernou

13、lli 模型，有如下分布：y 即即非非医医疗疗欺欺诈诈概概率率的的概概率率时时自自变变量量为为概概率率，即即医医疗疗欺欺诈诈概概率率时时自自变变量量为为,0,|011,|1yxxyPpyxxyPp4通过 logistic 转换，索赔事件的对数概率发生比写成 logit 模型： pppit1lnlogLogit 一方面表达出它是医疗欺诈索赔概率 p 的转换单位;另一方面，它作为回归的因变量就可以与自变量识别因子之间的依存关系保持传统回归模型： Xxxxitpkk 022110.log其中分别为 k 个识别因子：为常数项，分别为 k 个自变kxxx,.,210 k ,.,21 量的回归系数。5.

14、3 欺诈识别因子的选取欺诈识别因子的选取欺诈识别因子是指可以观测或测量到的，能够刻画保险欺诈特征的有效信息点，用以作为欺诈识别模型的解释变量。根据给出的数据，本文选取了一下 13 个指标作为识别因子：（1）被保人特征：性别、年龄、是否有固定单位、是否死亡、是否留有手机号；（2）医保单特征：医嘱日期和结算日期间隔、下医嘱科室、医嘱子类、医嘱数量、执行科室、核算分类、费用、单价。5.4 选取部分记录进行初步判定选取部分记录进行初步判定由于 logist 模型的要求，必须先对一小部分记录进行初步判定，利用 sql 语句（详见附录 2）选取每一栏目中异常数据，然后利用统计学分布等知识选

15、取判定这一小部分数据，结果如下表：表表 2 2 部分记录判定结果部分记录判定结果医保对象购药记录年龄病例号医保手册号性别是否死亡17861435963074960600783300工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号019320370132605060035核算分类费用单价时间间隔医嘱子类是否欺诈 31.750.0250251医保对象购药记录年龄病例号医保手册号性别是否死亡 22568436087446440151935000工作单位执行科室下医嘱科室医嘱数量下医嘱医生手机号账单号1191133179405066057核算分类费用单价时间间隔医嘱子类是否欺诈 111811801515.5 欺诈识别因子的精炼欺诈识别因子的精炼运用二元离散选择模型对选取的 13 个欺诈识别因子经行逻辑回归分析，从中获取5具有显著性的因子。本文通过 IBM SPSS Statistics19 软件实现样本数据的 logit 回归分析。（1）参数设定为：方法：进入；步进概率：进入（N）=0.05，删除（V）=0.1; 分类标准值

展开阅读全文