В‹#В›,DRGs,运筹学原理和数据驱动的医疗编码研究,DRGs运筹学原理和数据驱动的医疗编码研究,1,卫生医疗系统工程,目标,工业工程思想为核心,,采用量化分析方法,研究医疗系统中的问题,提高医疗服务的安全,质量,效用,效率和及时性医护专家在医疗领域受到专业训练,方法,要素,医疗系统是一个复杂且要求极高的系统,,,患者,,,运筹学模型,,,医护人员,,,医疗机构,,,政策,医保,工程师在研究复杂系统方面受到专业训练,医疗专家和工业,/,系统工程师之前在各自领域独立,将工业,/,系统工程应用于医疗系统,,,系统仿真,,,数据挖掘,,,以上的结合,,卫生医疗系统工程,2,卫生医疗系统工程工业工程思想为核心,采用量化分析方法,研究医,2,系统工程,-,国家层面号召,中国,美国,,,工程院和医学院,,NAE,,and IOM (2005),,,国务院《卫生事业发展十二五规划》(2012),•,,优化医疗卫生机构布局,加强医疗质量监管,通,过多种方式降低大病慢性病医疗费用,,,建立一个更好的医疗服务系统:一个新的工程,和医疗的合作伙伴,,,国务院促进大数据发展行动纲要,,(2015),,,,美国总统科学技术顾问委员会,PCAST(2014),•,,建设覆盖医疗服务、医疗保障、药品供应、计划,生育公共卫生和综合管理业务的医疗健康管理和,服务大数据应用体系。
•,,更好地医疗服务,更低的成本:,采用系统工程,促使提升,4,系统工程-国家层面号召美国 工程院和医学院 NAE and,3,疾病诊断相关分组,-,国家层面号召,,,2016-10-25,,《“健康中国2030”规划纲要》,严格落实医疗保险基金预算管理,积极探索按疾病诊断相关分组付费(,DRGs,),,,2016-11-08,,《关于进一步推广深化医药卫生体制改革经验的若干意见》,鼓励实行按疾病诊断相关分组付费,(DRGs),,逐步将医保支付方式改革覆盖所有医疗机构和医疗服务,,,2017-01-09,,《“十三五”深化医药卫生体制改革规划》,2017年,开展,DRG,付费试点,到2020年,医保支付方式改革覆盖所有医疗机构和医疗服务,普遍实施多元复合式医保支付方式,,按项目付费占比明显下降;,鼓励实行按疾病诊断相关分组付费,(DRGs),方式;,,,2017-04-25,,《深化医药卫生体制改革2017年重点工作任务》,国家选择部分地区开展按疾病诊断相关分组,(DRGs),付费试点,鼓励其他地方积极探索,,,2017-06-28,,《国务院办公厅关于进一步深化基本医疗保险支付方式改革的指导意见》,国家选择部分地区开展按疾病诊断相关分组,(DRGs),付费试点,,,2017-07-04,,《7部委关于做好国家卫生计生委和国家中医药局属管医院参加属地公立医院综合改革有关工作的通知》,44家属管医院9月底前全部参加属地公立医院综合改革,开展,DRGs,试点,取消药品加成,疾病诊断相关分组-国家层面号召 2016-10-25 《“,4,运筹学原理,,,历史和背景,,,原理和案例,6,运筹学原理 历史和背景6,5,历史和背景,,,1967,年,医院寻求质量和费用控制的工业方法,,(Medicare,实施两年后,),,,设计分析框架对医疗服务进行“测量”,,,在某个层面,每个患者都是特殊的,,,管理层面,更重要是找出相似性,用来评估和比较,,,相对其它行业(如制造),有更多困难挑战,,,从患者角度,,,很难评估医疗服务价值和质量,,,不会直接支付医疗服务费用,,,信息和有效激励的缺失导致了在其它行业非常有效的市场力量被扭曲,7,历史和背景 1967年,医院寻求质量和费用控制的工业方法,6,历史和背景,,,DRG,孕育而生,,,本质是一种病案组合,8,历史和背景 DRG孕育而生 本质是一种病案组合8,7,历史和背景,,,病案组合:解释医疗服务和花费的不同,MGH,开始实践,Robert B. Fetter,开发,DRG,1852,1965,Florence Nightingale,提出概念,Martin,,Feldstein,1900s,1967,证明可用性,,,DRG,的“相似”标准:临床过程,资源消耗强度,1967,1970s,1983,Congress,,act:,DRGs,,Family,Worldwide,Yale,,DRGs,Trial,:,State,,of,,New Jersey,9,DRGs-PPS,历史和背景 病案组合:解释医疗服务和花费的不同MGHRob,8,原理和案例,,,DRG,分组原则和结构,,,可管理的分组数量,,,两个相似:临床和资源消耗,,,应用后改善明显,10,原理和案例 DRG分组原则和结构 两个相似:临床和资源消,9,原理和案例,,,AUTOGRP,系统,,功能:将,MDC,(主要疾病分类)细分为,DRG,(按疾病诊断分组),,,思想:最大化差异性的减少,/,最小化不可解释的差异性,푗=푀,푗=1,푘=푁,2,,,原理:,min,σ,,σ,,(푒,,),푘=1,푘푗,ഥ,푠.,,푏.,,푦,,=,,푌,,+,,푒,푘푗,푘,푘푗,,,풚,풌풋,:第,푘,组中第,푗,位观察病例的因变量数据值(费用、住院时长等资源消耗,衡量指标);,,,풀,풌,:第,푘,组所有观察病例的因变量数据的平均值;,,,풆,풌풋,:病例因变量的实际值与本组平均值之差。
,,AUTOGRP,系统中,观察病例的因变量值组内相近,组间差异大11,原理和案例 AUTOGRP系统功能:将MDC(主要疾病分,10,原理和案例,,,观察病例样本如下图所示,,AUTOGRP,实现过程如下:,R,1,R,2,1.,,确定因变量,푌,(例如费用、住院时长等),自变量,푋,,(例如年龄、诊断等),2.,,对于某个选定的自变量,푋,,,将其分类(图中对应为,푋,,,,,푋,,,,,푋,,);,1,2,3,,,例如,手术这个变量,没有手术是一类,轻微手术是一类,大手术是一类3.,,将自变量,X={X,,,,,X,,,…,X,,},的分类进行归组,只能归属于一组:,ڂ,,푅,,=,,{,1,,,2,,,3,,,,…,,,,,푁,},퐺,1,2,N,푘=1,푘,for,,푅,,(,1,,≤,,푘,,≤,,퐺,),,,,where,,푅,,∩,,푅,,=,,∅,,(,푘,,≠,,푘,,),′,′,푘,푘,푘,,,例如,手术这个变量,将轻微手术,X1,和大手术,X2,归为一组,无手术,X3,是一类12,原理和案例 观察病例样本如下图所示,AUTOGRP实现过程,11,原理和案例,,,观察病例样本如下图所示,,AUTOGRP,实现过程如下:,R,R,1,2,4.,,计算每组因变量的组间方差:,푀,푖,푀,푖,2,푊,퐺,푆푆푄,,푘,,=,,,,,,푌,,−,,푌,,,,,1,,≤,,푘,,≤,,퐺,;,푌,,=,,,,,,푌,,൙(,,,,푀,,),푖푗,푘,푘,푖푗,푖,푖∈,푅,푘,,푗=1,푖∈,푅,푘,푗,푖∈,푅,푘,,,分组是根据自变量,X,分组,而计算组间方差是对应因变量,Y,的值,例如费用或者住院时长。
,,组间方差的公式是组中每个观察病例因变量的值与组平均值的离差的平方和13,原理和案例 观察病例样本如下图所示,AUTOGRP实现过程,12,原理和案例,,,观察病例样本如下图所示,,AUTOGRP,实现过程如下:,R,R,1,2,5.,,计算总的组间方差值:,퐺,푀,푖,푀,푖,2,푇푊,퐺,푆푆푄,,푄,,=,,,,,,,,푌,푖푗,,−,,푌,;,푌,,=,,,,,,푌,,൙(,,,,푀,,),푘,푘,푖푗,푖,푘=1,,푖∈,푅,푘,,푗=1,푖∈,푅,푘,푗,푖∈,푅,푘,푊,퐺,푆푆푄,,푅,1,,+,,푊,퐺,푆푆푄,,푅,2,,,总的组间方差值是各个组的组间方差值之和,14,原理和案例 观察病例样本如下图所示,AUTOGRP实现过程,13,原理和案例,,,为什么选用,푇푊,퐺,푆푆푄,,푄,,(总的组间方差值)作为分类指标?,,,对于一个给定的自变量,分类算法的目标是找到特定的分组,使得对,应的因变量的总组间方差最小,,考虑到总的组间方差,TWGSSQ,与自变量无法解释的方差成比例,所以,TWGSSQ,的最小化导致数据不明原因的方差最小化,,푇푊,퐺,푆푆푄,,푄,,:总的组间方差值。
15,原理和案例 为什么选用푇푊퐺푆푆푄 푄 (总的组间方差值),14,原理和案例,,,判断终端分组,,,当某一分组并不足以保证另外的数据也这样分类时,例如,组中的观察数据量,小于某个阈值,就需要停止继续分组푇푆푆푄−푇푊푆푆푄,,,没有任何变量使得无法解释的方差减少至少,1%,,即:,∗,,1,00,,<,푇푆푆푄,1,,,,푇푆푆푄,:所有观测病例因变量与总均值的平方差之和;,,,푇푊,퐺,푆푆푄,,푄,,:总的组间方差值푁,,푀,푖,푀,푗=1,푁,2,σ,,σ,,푖,,푌,ത,푖=1,푖푗,푇푆푆푄,,=,,,,,,푌,,−,,푌,,;,,ത,푌,,=,൘,푖푗,푁,σ,,푀,푖=1,푖,푖=1,,푗=1,16,原理和案例 判断终端分组 当某一分组并不足以保证另外的数,15,原理和案例,,,MDC55-,泌尿系结石大类,,,该类别包含患有主要诊断(,ICDA-8,编码)为,592,,即肾和输尿管的结石的患,者和主要诊断为,594,,即泌尿系统的其它部分的结石的患者,,数据来源,,,新泽西州,118,家机构的约,50,万份医院记录,来自康涅狄格州,1,家医院的,150,000,份记录和来自,PSRO,(专业标准审查组织)地区,50,家机构的联邦资助,患者的,52,000,份记录,,,记录包含与患者住院相关的人口统计信息(例如问题,/,诊断,手术程序,使,用的特殊服务),,,采用标准分类系统,ICDA-8,编码。
17,原理和案例 MDC55-泌尿系结石大类 该类别包含患有主,16,原理和案例,,,数据统计,,,数据库中包含,1425,个的,MDC55,类患者,他们的平均停留时间为,6.93,,标准差为,6.44,,,用于划分该组的变量,主要手术和二级诊断对应的偏方差值占总变异量的,42.93,%,其中,41.75,%归于前者,后者占,1.17,%18,原理和案例 数据统计 数据库中包含1425个的MDC55,17,原理和案例,,,AUTOGRP,分组实现过程,1.,,数据清洗,,,将,3,例出院死亡,,10,例手术或诊断代码无效,,2,例住院时间大于,60,天的病例记录清除;,2.,,选择自变量,,,选择主要手术操作(,oper1,),二级手术操作(,oper2,),初级诊断(,dx1,),二级诊断,(,dx2,),年龄,性别作为定义潜在亚群的自变量;,,,偏主观,依据医生的临床经验;,3.,,将第二步中的分组继续细分,,,将,3,例出院死亡,,10,例手术或诊断代码无效,,2,例住院时间大于,60,天的病例记录清除;,19,原理和案例 AUTOGRP分组实现过程1. 数据清洗 将,18,原理和案例,,,第二步:选择自变量,,,表,3,汇总了各个变量对应的方差减少比例,即上文提到的,((TSSQ-TWSSQ)/TSSQ)*100,,,选择,,oper1,即主要手术操作作为分组变量,,,原因:具体最大化的不可解释差异性的减小,20,原理和案例 第二步:选择自变量 表3汇总了各个变量对应的,19,Y,,,第二步:选择自变量,,,表,4,显示了,,oper1,这个变量对应的三个子组的,统计量;,,,包含每组中涉及的不同外科手术程序,相应的,观察次数(,SIZE,)和平均住院时间,(,MEAN,);,,,可以发现,第一组中超过,98,%的观察结果没有,列出手术程序;,,,第二组主要包含相对较小手术的病例,例如膀,胱镜检查和尿道镜检查(,A46,)以及导管通过,肾脏(,557,),;,,,第三组包括更复杂的手术如输尿管切开术,(,550,),膀胱切开术(,560,)和肾盂切开术,(,541,);,,,在这些结果的基础上,决定将初始的一组泌尿,系结石患者分成,3,组,与算法提出的那些类,似,即一组非手术患者(组,1,),一组相对复,杂手术的患者组(组,3,),一组其他手术患者,组(组,2,)。
21,Y 第二步:选择自变量 表4显示了 oper1 这个变量,20,原理和案例,,,第三步:将第二步的分组结果再进行细分,,,表,6,总结了每个组的描述性统计数据,,表,5,显示了对于非手术患者(上表的组,1,),由算法形成的组的数量以及每个,变量(除了,oper1,和,oper2,之外)的变异,值相应百分比减少量;,,关于该组观测值的分布,第,3,组和第,4,组数据量,太小而不能被视为终端组,而第,2,组有,109,个观,测值处于边缘位置,,变量二次诊断(,dx2,)对应的变异值减,,,第,1,组有超过,80,%的观察数据没有列出二级诊,断,所有,4,组的其余病例分布在,105,个不同的二,级诊断代码中,而且每种疾病代表的病例通常,少量最大,因此选择变量二次诊断,(,dx2,)形成的,4,组的特征进行更仔细的,检查少于,10,例,且没有明显的临床模式22,原理和案例 第三步:将第二步的分组结果再进行细分 表6总,21,原理和案例,,,第三步:选择自变量,,,因此,在特定的二级诊断基础上形成的子组并没有特别意义,但从医学角度来看,将是否,包含二级诊断作为标准,这种分类方式更易于管理和解释,(,尽管模型上表现略差,),。
23,原理和案例 第三步:选择自变量 因此,在特定的二级诊断基,22,原理和案例,,,AUTOGRP,分组实现过程,4.,,第二步中的手术组细分,,,可选择的变量为二次手术诊断,年龄和性,别,应用分类算法进行筛选5.,,第二步中的非手术组细分,,,对非手术患者组,根据是否存在其它诊断这,个变量进一步评估,以确定它们是否应进一,步分割或完整保留为末端组24,原理和案例 AUTOGRP分组实现过程4. 第二步中的手术,23,原理和案例,,,第四步:手术组细分,,,然而,两种情况下,在检查了所建议的,,,表,8,显示了对于较小手术患者组,算法,计算出的各个变量对应的变异值减少,量,,同样地,表,9,显示了对于复杂手术患者,组的数据后,发现至少一半的数据没有,二级诊断,剩下的在至少,100,个不同代,码中分布的,无明显的临床一致性组,算法计算出的各个变量对应的变异,值减少量,,在这两种情况下,二级诊断,(dx2),这个变,,,说明诊断是不相似的,很少有,10,例以上,相似诊断的病例类似第三步),量对应的变量减少效果最强,并被选为,用于形成亚组的潜在变量在这两种情况下,都说明在二级诊断的基础上进一步分解手术组没有足够的医学理由。
因此,,这两个手术组没有进一步划分,而被视为终端组此外考虑控制组数,我们不考虑重新分组,25,原理和案例 第四步:手术组细分 然而,两种情况下,在检查,24,原理和案例,,,第五步:非手术组细分,,,对于无二次诊断的非手术组,见表,10,,,使用年龄作为分组依据,发现,95%,的数据在第一,个组里,,,二级手术也有同样情况,因此以上分组不考虑,,,对于有二次诊断的非手术组,见表,11,,,使用年龄形成的,3,组被认为是潜在的亚组界定,小组边界的年龄水平分别为,66,岁和,70,岁;,,,但几乎,90,%的观测值都在,66,岁以下,说明组内病,例分布不均衡,因此这一划分被拒绝,,因此,有或没有多重诊断的非手术组被认为是终,端分组26,原理和案例 第五步:非手术组细分 对于无二次诊断的非手术,25,原理和案例,27,原理和案例27,26,原理和案例,最终结果,,,DRGs,,239,:,尿结石,无,手术,无二次诊断;,,,DRGs,,240,:,尿结石,无,手术,有二次诊断;,,,DRGs,,241,:,尿结石,有,膀胱镜检查、肾脏导管或,其他小手术;,,,DRGs,,242,:,尿结石,有,肾切除术,膀胱镜检查,,输尿管切开术或其他大手,术。
28,原理和案例 DRGs 239:尿结石,无手术,无二次诊断;,27,DRG,的局限,,,分组效果(,cc-mcc,模块),,,Upcoding,问题,,,临床路径中的协调,,,患者选择,,,DRG的局限 分组效果(cc-mcc模块) 28,DRG,的局限,,,费用扭曲,,,需要系统工程的模型和工具解决,医院支出费用结构图,德国医院综合支出比例,香港医院管理局年度支出,4%,10%,14%,3%,21%,11%,61%,76%,北京市,8%,9%,人力成本,16%,药品耗材,化验检查,其它,30,DRG的局限 费用扭曲 需要系统工程的模型和工具解决医院,29,编码研究,,,数据和背景,,,编码向量表示,31,编码研究 数据和背景 编码向量表示31,30,数据:,HQMS,,datasets,,,本研究使用的电子病历数据集,,,采集自,HQMS,系统,,,北京市,,5,家三甲医院,共,,75,万,条记录,,2013-2015,,,内容包含,,,ID,、年龄、性别、医院类型、地区,,,历史住院次数、离院方式、入离部门,,,诊断信息(,ICD-10,),–,,主要,,&,其他诊断,,,手术操作信息(,ICD-9-CM,),–,,主要,,&,其他手术操作,,,医疗资源消耗,–,,住院时长、医疗费用、保险类,型、自费比例,32,32,,,其他:再住院信息、,Critical,,care,信息,数据:HQMS datasets 本研究使用的电子病历数据,31,医疗编码处理,,,挑战性:高维度,,&,,事件稀疏性,,,上万种医疗编码,,,每种编码的出现次数少,,,重要性:数据表示方式对机器学习模型影响很大,,,表示学习:依靠模型从数据中自动抽取重要信息,,,已成功应用于多个领域,–,,语音识别、信号处理、目标检测、自然语言处理等,,,应用于医疗领域:学习医疗编码的向量表示,,,无监督模型,:,,Ho,et,,al. (2014),,,Choi,,et,,al. (2016),,,Tra,,n,et,,al. (2015),–,,不一定适合于特定的预测任务,,&,所需样本量大,,,有监督模型:,Yang,,et,,al. (2017),–,,相比于无监督模型,预测能力有明显提升,–,,与特定表示学习模型结合过于紧密,难以拓展应用,33,医疗编码处理 挑战性:高维度 & 事件稀疏性 每种编码的,32,研究背景,,,研究目标,,,生成适合于医疗资源消耗预测的,高质量的医疗编码向量表示,,,研究关注两大重点,,,预测能力,,,基于医疗编码向量搭建机器学习模型,预测准确度高,,,在数据规模较小时,有良好表现,,,决定了模型是否能很好地解决实际问题,并服务于现实需求,,,可解释性,,,向量的每一维含义清晰,,,表示方法尽量贴近临床经验,,->,医学可解释性,,,决定了模型是否能被医务工作者所理解,并基于专业知识论证结果的合理性,从而,在实际中推广应用,34,研究背景 研究目标 生成适合于医疗资源消耗预测的,高质量,33,相关研究综述,,,独热表示法,,&,三种常见的医疗编码降维方式,,,独热表示法,,,维度与医疗编码个数相等(,1,万,+,),表示一个特定医疗编码时,仅有对应,维取值为,1,,其余维取值为,0,,,优点:可解释性强,,,缺点:维度过高,容易造成预测模型过拟合,35,相关研究综述 独热表示法 & 三种常见的医疗编码降维方式,34,相关研究综述,,,独热表示法,,&,三种常见的医疗编码降维方式,,,特征选择法,,,从所有医学概念中选择出“重要”的概念进行表示,,,成功应用于:医疗文本检索与分类、疾病表型预测等分类任务,,,缺点:会造成大量患者的医学概念信息被抹除,36,相关研究综述 独热表示法 & 三种常见的医疗编码降维方式,35,相关研究综述,,,独热表示法,,&,三种常见的医疗编码降维方式,,,特征聚合法,,,将医学概念进行分组,将属于同一组的医学概念看作完全相同,以往研究,及应用多从医学角度出发进行分组,,,优点:可解释性强,结果贴近临床经验,,,缺点:从医学角度看合理的分组结果,预测能力不能保证,37,相关研究综述 独热表示法 & 三种常见的医疗编码降维方式,36,相关研究综述,,,独热表示法,,&,三种常见的医疗编码降维方式,,,医疗编码嵌入法,,,利用自然语言处理领域的表示学习模型:词嵌入模型,将医学概念映射为低维连,续向量,多为无监督模型,,,优点:预测能力强,,,缺点:可解释性较差,向量每一维含义不清晰,38,相关研究综述 独热表示法 & 三种常见的医疗编码降维方式,37,研究课题:概述,,,研究课题及其相互关系,可解,释性,预测,能力,ICD,编码的树型,分层结构,提高预测能力,医疗编码分组,39,研究课题:概述 研究课题及其相互关系可解预测ICD编码的树,38,研究课题:预测任务导向的医疗编码表示学习,,,词嵌入模型,,,潜语义分析(,Latent,,Semantic,,Analysis,,,LSA,),,,,Skip-gram,,,CBOW,,,将单词映射为低维连续向量,,,语义相近的单词,欧式距离也相近,,,从统计的角度判断语义是否相近,,,训练需给定语料库,语料库由句子组成,句子提供单词所处上下文,,,所处上下文相近的单词,语义相近,40,研究课题:预测任务导向的医疗编码表示学习 词嵌入模型 潜,39,研究课题:预测任务导向的医疗编码表示学习,,,词嵌入模型,应用于医疗编码表示学习,,,潜语义分析(,Latent,,Semantic,,Analysis,,,LSA,),,,,Skip-gram,,,CBOW,,,将,医疗编码,映射为低维连续向量,,,语义相近的,编码,,欧式距离也相近,,,从统计的角度判断语义是否相近,,,训练需给定语料库,语料库由,医疗语句,组成,,医疗语句,提供,医疗编码,所处上下文,,,所处上下文相近的,编码,,语义相近,,,研究关注:如何为医疗编码提供合理的上下文?,,,医疗编码,,,,医疗语句,,,预测任务导向的电子病历聚合(,Prediction,,Task,,Guided Health,Record,Aggregation,,,PTGHRA,),41,研究课题:预测任务导向的医疗编码表示学习 词嵌入模型应用于,40,研究课题:预测任务导向的医疗编码表示学习,,,研究目标:利用词嵌入模型,生成对于特定任务具有强预测能力的,医疗编码向量,,,预测任务指导医疗语句生成,,,通过控制医疗编码所处上下文,影响词嵌入模型训练,42,研究课题:预测任务导向的医疗编码表示学习 研究目标:利用词,41,研究课题:预测任务导向的医疗编码表示学习,,,与以往研究构建医疗语句方式的对比,43,研究课题:预测任务导向的医疗编码表示学习 与以往研究构建医,42,研究课题:预测任务导向的医疗编码表示学习,,,PTGHRA,,算法流程,44,研究课题:预测任务导向的医疗编码表示学习 PTGHRA 算,43,研究课题:预测任务导向的医疗编码表示学习,,,PTGHRA,,预测表现(测试集上的,푅,2,),,,基准方法,,,医疗编码嵌入法表现明,显优于独热表示法,45,研究课题:预测任务导向的医疗编码表示学习 PTGHRA 预,44,研究课题:预测任务导向的医疗编码表示学习,,,PTGHRA,,预测表现(测试集上的,푅,2,),,,基准方法,,,医疗编码嵌入法表现明显优于,独热表示法,,,“等值”聚合标准下的,PTGHRA,,,PTGHRA,表现明显优于基准方法,46,研究课题:预测任务导向的医疗编码表示学习 PTGHRA 预,45,研究课题:预测任务导向的医疗编码表示学习,,,PTGHRA,,预测表现,,,“等间隔”,&,“等分位数”聚合标准下的,PTGHRA,47,研究课题:预测任务导向的医疗编码表示学习 PTGHRA 预,46,研究课题:预测任务导向的医疗编码表示学习,,,与其他非监督式医疗语句构建方法的对比,,,不考虑病历间的相似性:复制法、随机聚合法,,,考虑病历间的相似性:诊断聚合法、手术操作聚合法,48,研究课题:预测任务导向的医疗编码表示学习 与其他非监督式医,47,研究课题:预测任务导向的医疗编码表示学习,,,PTGHRA,,带来的预测能力提升随数据规模的变化,,,数据规模越小,提升效果越明显,49,研究课题:预测任务导向的医疗编码表示学习 PTGHRA 带,48,研究课题:概述,,,研究课题及其相互关系,50,研究课题:概述 研究课题及其相互关系50,49,总结:未来研究展望,,,将预测模型融入医疗决策系统,,,健康干预措施设计,,,医疗资源配置优化,,,临床决策支持,,,探索预测能力更强的医疗编码表示方式,,,基于多个导向任务的,,算法,,,应用于分类任务的,,算法,51,总结:未来研究展望 将预测模型融入医疗决策系统 医疗资源,50,参考文献,Ding R,,,Jiang,,F,,,Xie,J,,,et,,al. Algorithmic prediction,,of,,individual,,diseases [J].,,International,,Journal of,,Production Research, 2017,,,55(3):,,750-768.,Powers,,C,A,,,Meyer Cmroebuck M C,,Vaziri,,B.,,Predictive,,modeling of,,total healthcare,,costs using pharmacy,,claims data:,,A comparison,,of,,alternative,econometric cost modeling techniques,,[J].,,Medical,,Care,,,2005,,,43(11):,,1065-1072.,Chen,,L,,,Zhang X,,,Xu,,X,,et,,al. Mortality prediction,,of,,ICU,,patients,,using EDA-enhanced,,logistic,,model [J].,,International,,Journal of,,Services Operations,and Informatics, 2012, 7(2-3):,,182-196.,Anderson,D,,,Bjarnadóttir,,M.,,When,,is an,,ounce of,,prevention,,worth,,a pound,,of,,cure? Identifying,,high-risk candidates,,for,,case,,management[J].,,IIE,Transactions,,on Healthcare,,Systems,,Engineering,,,2016,,,6(1):,,22-32.,Davis D,A,,,Chawla N,V.,,Time,to,,CARE:,,A collaborative engine,,for,,practical,,disease prediction,,[J].,,Data Mining,,and Knowledge Discovery,,,2010,,,20(3):,388-415.,Yu,,S, Ma,Y,,,Gronsbell,,J,,,et,,al. Enabling,,phenotypic,,big,,data,,with,,PheNorm,,[J].,,Journal of,,the,,American Medical,,Informatics Association,,,2017,,,25(1):,54-60.,Bertsimas,D,,,Bjarnadóttir,,M,V,,,Kane M,A,,,et,,al. (2008).,,Algorithmic prediction,,of,,health-care,,costs,,[J].,,Operations,,Research, 56(6):1382–1392.,Duncan,,I, Loginov,,M, Ludkovski M.,,Testing,,alternative,,regression frameworks,,for,,predictive,,modeling of,,health,,care,costs [J].,,North,,American,Actuarial,,Journal, 2016,,,20(1):,,65-87.,Xie,Y,,,Schreier G, Hoy M,,et,,al.,,(2016).,,Analyzing health,,insurance claims on,different,,timescales,to,,predict,,days,,in hospital [J].,,Journal,of,,Biomedical,Informatics,,,,60:187–196.,Ho,,J C, Ghosh,J,,,Sun,,J.,Marble: High-throughput,,phenotyping,,from,,electronic health,,records,,via sparse nonnegative,,tensor factorization,,[C].,,The 20th,ACM SIGKDD,,International,,Conference,,on Knowledge Discovery,,and,,Data Mining.,,2014: 115-124.,Choi,,Y,,,Chiu C,Y,,,Sontag,D.,,Learning low-dimensional,,representations,,of,,medical,,concepts [C].,,AMIA Summits,,on Translational,,Science Proceedings.,2016:,,41-50.,Tran,,T,,,Nguyen,,T,D,,,Phung,,D,,,et,,al. Learning vector representation,,of,,medical,,objects via EMR-driven,,nonnegative,,restricted Boltzmann machines,(eNRBM),,[J].,,Journal of,,Biomedical Informatics 54 (2015),,96–105.,Yang,,K,,,Li X, Liu,,H,,et,,al.,TaGiTeD:,,Predictive,,task guided,,tensor decomposition for,,representation,,learning from,,electronic health,,records,,[C].,,The 31st,AAAI,,Conference,,on Artificial Intelligence.,,2017:,,2824-2830.,Rosenberg,A,,,Hirschberg,,J.,,V-measure: A conditional entropy-based,,external,,cluster evaluation,,measure [C].,,Joint Conference,,on Empirical Methods,52,in Natural,,Language,,Processing and Computational,,Natural Language,,Learning. 2007:,,410-420.,参考文献Ding R, Jiang F, Xie J, et,51,。