基于数据挖掘的地震创伤患者入院后结局预测模型

上传人:飞*** 文档编号:40505981 上传时间:2018-05-26 格式:DOC 页数:6 大小:27KB
返回 下载 相关 举报
基于数据挖掘的地震创伤患者入院后结局预测模型_第1页
第1页 / 共6页
基于数据挖掘的地震创伤患者入院后结局预测模型_第2页
第2页 / 共6页
基于数据挖掘的地震创伤患者入院后结局预测模型_第3页
第3页 / 共6页
基于数据挖掘的地震创伤患者入院后结局预测模型_第4页
第4页 / 共6页
基于数据挖掘的地震创伤患者入院后结局预测模型_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《基于数据挖掘的地震创伤患者入院后结局预测模型》由会员分享,可在线阅读,更多相关《基于数据挖掘的地震创伤患者入院后结局预测模型(6页珍藏版)》请在金锄头文库上搜索。

1、描述:目的 模式识别技术(PRT)是一种挖掘重要信息的新型工具,可以从海量数据中提取新的知识。基于汶川特大地震中创伤患者的数据,笔者采用 PRT 建立地震伤员结 局预测模型,旨在为提高灾难医学救援水平提供一种新.【摘要摘要】目的 模式识别技术(PRT)是一种挖掘重要信息的新型工具,可以从海量数据中提取新的知识。基于汶川特大地震中创伤患者的数据,笔者采用 PRT 建立地震伤员结 局预测模型,旨在为提高灾难医学救援水平提供一种新的方法。方法 采用回顾性数据挖掘方法,数据来自于四川省医学科学院创伤数据中心 2008 年 5 月 12 日至 20 日收治的 2316 例住院地震伤患者病例信息。将患者资

2、料按照 生存与死亡、是否发生多器官功能不全综合征(multiple organ dysfunction syndrome, MODS)分组。根据正态性分布检验结果,计量资料以均数标准差(xs)或者中位数(四分位数)表示,统计检验采用 Student T 检验或者 Wilcox 检验;计数资料采用构成比表示,统计检验采用 2检验或者 Fisher 检验。多元统计分析采用偏最小二乘法 判别分析(partial least square-discriminant analysis, PLS-DA)。多元聚类图采用二维主成分的 PLS 的投影图,并采用重要性投影指标值(variable importa

3、nt projection,VIP)筛选与临床结局相关的重要变量,工效曲线(receiver operating characteristic curve, ROC)作变量灵敏性分析。结果 经数据清理后 1919 例患者的病例资料纳入研究;筛选出 31 项人口学指标、生理-生化指标以及干预因素作为暴露参数;获得 36 例院内死亡病例和 17 例 MODS 病例。MODS 相关病死率为 47.1%。经过 PLS-DA 分析,二维主成分得分图可以辨识出生存、MODS 和死亡模式。对病死率和 MODS 进行预 测,ROC 曲线下面积(area under curve, AUC)分别为 0.882 和

4、 0.979。PLS-DA的重要性投影指标值(VIP)确定了 8 项生理指标(pH,BE,PaCO2,PaO2,HCO3,SBHCO3,Cr 和首日补液量)构成了与院内死亡和 MODS 发生的相关模型。结论 研究建立了一项可以预测特大地震创伤入院患者预后模型(由入院接受创伤治疗的生理-生化指标集合和液体复苏干预构成)。基于该模型,将有助于开发帮助医务 人员在特大灾难医学救援中早期预判高危患者的计算机辅助诊断系统。 2008 年 5 月 12 日发生的四川汶川地震为例(里氏 8.0 级),参与救治的现场医疗队多达上千支,动员了数千家现场和后方医疗机构接收多达 300 万患者。尽早发现导致伤员死亡

5、的相关因素,建立预后预测模型,进而对于提高地震伤救治成功率,挽救生命,具有重要意义。 目前的研究大多数是描述性的伤员流行病学特征分析,往往采用单因素分析技术对影响患者结局相关的临床指标进行逐项筛选。欲全面、准确地获取地震伤致死相关因素,进而开发具有较高实用性的预后预测模型,必须引入新的思想和数学方法。 模式识别技术已经开始应用于临床大数据分析和构建预后预测模型。 模式识别的核心思想是将患者的病情(就创伤而言,包括受伤时情况、特定时点的生理生化指标)视为不同的、可区分的模式,随着治疗干预措施的实施,伤情模式 随之发展、变化,最终导致患者出现生或者死的最终结局。在这个意义上,由各种指标共同组成的伤

6、情模式较之单一指标更能提供多维度、立体的预后预测信息。 本研究拟基于模式识别技术,通过对汶川特大地震后一组住院伤员的大数据挖掘,发现影响患者病死的伤情相关因素组合模式,进而提出一种对大地震后伤员病死预 后的预测模型。 1 1 资料与方法资料与方法 研究对象来源于四川省医学科学院四川省人民医院 2008 年 5 月 12 日至5 月 20 日期间收治入院的所有汶川地震伤员,总计 2316 例。对病例资料数据的使用,经四川省医学科学院四川省人民医院医学伦理委员会批准。 通过该数据库中的数据,笔者在 94 项入院临床记录中进行数据筛选和清理。其中整理出了包括患者的年 龄、性别以及入院时的首日临床资料

7、共计 31 个临床指标作为特征用于进行与预后相关结局(死亡和发生 MODS)的模式识别。本组病例患者多于短时间内由地震 灾区送入本院,其中 60%来源于地震发生后2 d。短时间内大量患者涌入,除创伤科外,其他外科及内科专科医师均被动员参加伤员救治,大多数患者来院时未常规进行 ISS 评分。 结局指标:院内死亡及发生 MODS(MODS 诊断标准参考2004 严重感染和感染性性治疗指南) 。 统计学方法:首先按照本实验室建立的临床数据挖掘操作手册对数据进行常规数据清理,基线数据按照生存与死亡分组,计量资料以均数标准差(xs)或者中 位数(四分位数)表示,统计检验采用Student t 检验或者

8、Wilcox 检验;计数资料采用构成比表示,统计检验采用2检验 或者 Fisher 检验。多元统计分析采用偏最小二乘法判别分析(PLS-DA), 多元聚类图采用 2 主成分的 PLS 的投影图,并采用重要性投影指标值(variable important projection,VIP)筛选重要变量,ROC 曲线作变量灵敏性分析。计算平台:CPU Intel XEON E7-8870 X4, Memory 512Gb, GPU TESLA K20. 计算的运行环境采用Ubuntu 12.04.3 操作系统,统计软件为 R (ver 2.15.2)。 2 2 结果结果 2316 例病例中,397

9、例由于信息不全而被剔除,资料整理后一共有 1919 例被纳入。预后良好(未死亡,且未发生 MODS)共计 1875 例,发生 MODS 17 例,死亡 36 例。MODS 患者中 8 例死亡,MODS 病死率 47.1%。表 1 给出了本研究病例资料生存组与非生存组的基线特征。研究中包含 938 名男性和 945 名女性,平均年龄为 44.4 岁。生存组和非生存组之间年龄和性别差异无 统计学意义,转运方式主要为非救护车转运,差异无统计学意义。单一临床指标中,生存组与非生存组相比在以下几项指标中差异差异具有统计学意义:非生存病例 的GLASCOW 评分显著低于生存组;WBC 值生存组显著低于非生

10、存组; BUN、Cr、BK差异具有统计学意义;首次手术时间差异具有统计学意义。 采用 PLS-DA 进行多元回归聚类分析。PLS-DA 方法可以利用提取主成分的思想建立影响患者预后的因素与患者预后数值之间的线性方程组。 我们发现,当提取第一主成分和第二主成分的线性方程组的时候,预后良好患者、MODS 患者、MOF 患者和死亡患者计算出的结果在平面中的分布最具明显区 别。见图1。 A:横轴表示第一主成分得分,纵轴表示第二主成分得分,红色表示死亡患者,绿色表示生存患者,蓝椭圆区域表示 T2 检验 95%CI;B:生 存组和死亡组模式分类概率结果,横轴表示病例标号,纵轴表示 PLS 预测其患者死亡的

11、概率值;C: PLSDA 第一和第二成分得分图,横轴表示第一主成分得分,纵轴表示第二主成分得分,绿色表示无 MODS 且生存患者,蓝色表示 MODS 患者,蓝椭圆区 域表示 T2 检验 95%CI;D:生存组和 MODS 组模式分类概率结果,横轴表示病例标号,纵轴表示 PLS 预测其患者发生 MODS 的概率值 不同因素对于疾病预后的影响不同,PLS 方法的优点之一是对各变量的预后具有很强的解释能力,并且能够起到重要的变量筛选作用。为了获得影响疾病预后各因素的重要程度,笔者以死亡、MODS 为结局分别获取影响疾病预后的各因素的 VIP 值,见表 2 和表 3。 3 3 讨论讨论 地震伤或重大突

12、发公共卫生事件后,对患者进行分类筛选,将具有病死、MODS/MOF 或其他严重并发症风险的患者尽速选出加以治疗,是医疗救 援中首要的任务。这个任务的完成依赖于对重大突发公共卫生事件产生的大量数据进行有效地挖掘。作为大规模地震伤医疗救援的首个大数据挖掘研究,本研究的一 个重要发现是,基于一组入院诊疗指标,可以前瞻性的将地震伤员的结局模式进行预判在主成分得分图中表现为预后不良因素主要集中在第一象限,随第一主成 分和第二主成分增大更加容易发生预后不良。本研究中 PLS-DA 通过特征提取发现的死亡结局和发生 MODS 相关因素包括:pH,BE,PaCO2,PaO2,实际 HCO3-1,标准 HCO3

13、-1,Cr,首日补液。 就诊断和预警意义而言,这意味着酸碱环境、氧合状态、肾脏功能以及作为院前/现场干预手段的液体复苏共同构成了对此批患者预后具有决定性影响的因素 集。计算机网络设计上述几乎每一个单一因素都曾经在单个研究中被单独筛选出来,但将之作为一个集合用以构成预后预测的定量预测模型,是本研究的首次发现。换言之,这组指 标构成了特征性的,可用于预测病死风险的“死亡签名”。进一步采集更多断面形成队列资料库后将有望获得上述因素集及入院后有关干预(手术方式、药物治疗、 营养治疗等)共同构成的动态监测模型。笔者对提取出的 11 个因素进一步分析发现首日补液量 VIP 值为 14.79,表明该特征变量

14、是具有重要意义的影响因 素。进一步考察该特征变量在本数据集中的情况,发现首日未补液的患者占 97.7%,若以是否接受补液这一特征变量将数据集重新分组,本数据集中所有病死 /MODS 结局患者均接受了首日补液处理。显而易见的,入院时即必须接受补液的患者其病情更重。而创伤科医师的经验和已有证据均表明,危重伤患者入院时的 补液方式和种类正是一影响预后的重要因素。同时, PLS-DA 对病死和 MODS 的 ROC 曲线下面积分别为 0.882 和0.979 预测效能较好(图 3)。偏最小二乘法是一种新型的多元统计数据分析方法,它于 1983 年由 Wold 和 Albano 等首次提出。长期以来,计

15、算机模式识别和统计学上的相关分析方法之间的界限非常清楚。而偏最小二乘法则把它们有机地结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。 对于地震伤后死亡风险因素分析,长期以来研究者多把注意力集中在各种单一指标与临床结局之间的关系上。但真实的临床结局是受到多种因素的复杂影响,依靠单一因素不能对临床结局做无法做出准确的预测,甚至连合理的推断也很难。如果将影响临床结局的诸变量视为不同的模式组合,则预测的精度将得到极 大提高。模式识别的基本思想是对复杂现象进行影响因素抽提,利用数学方法对复杂变量进行压缩和聚类,从而将

16、直觉/感觉经验难以把握的复杂现象进行恰当分 类,最终实现预测。就地震伤预后预测而言,是通过特征提取的方法从创伤伤情变化、院前处理措施等纷繁因素中提取最重要的变量特征(即主成分),从而利用主 成分构造特征空间,进而发掘对于临床结局(病死、MODS/MOF 或其他终点结局)最具影响的创伤伤情模式。 从数据科学的角度看,重特大地震发生后大量的伤员和复杂的伤情本质上意味着突然爆发的数据涌入,医生在此时往往缺乏处理如此多的数据的经验,从而造成不能迅速做出正确的临床决策,更何况大地震状况下,震区医疗机构遭受摧毁,大量经验不足的非急诊/创伤医务人员不得不参与处理自己所不熟悉的创伤 问题。因此利用计算机模式识别的思想将影响患者预后的变量进行压缩、降维并且可视化就成为现代急救医学发展的一种必然方向。 就伤亡人数、医疗机构动员范围而言,2008 年发生的中国汶川特大地震属规模最大的一次地震救援。此次地震后,就医疗救援问题,中国国内和国 际医学期刊上已经发表了数十篇论文。到目前为止,笔者发现绝大多数论文仅仅简单表述了地震伤及其并发症的流行病学特征,还未见将

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号