20130522-526 基于临床数据挖掘的冠心病药物治疗分析

资源描述

《20130522-526 基于临床数据挖掘的冠心病药物治疗分析》由会员分享，可在线阅读，更多相关《20130522-526 基于临床数据挖掘的冠心病药物治疗分析（6页珍藏版）》请在金锄头文库上搜索。

1、基于临床数据挖掘的冠心病药物治疗分析基于临床数据挖掘的冠心病药物治疗分析朱春燕田雨李劲松* 基金项目：国家自然科学基金项目（编号：61173127）、浙江大学海外一流学科伙伴计划（编号：188170*193251101）资助 *通讯作者：浙江大学数字化医疗工程研究中心教授，310027，浙江省杭州市浙大路 38 号浙江大学数字化医疗工程研究中心，310027，浙江省杭州市浙大路 38 号摘要随着医疗信息化的不断发展完善，各项医疗数据也日益膨胀。面对海量数据，如何对其进行深层的分析利用，成了当下备受关注的一个问题。本研究采集大量冠心病患者的临床用药数据，利用数据挖掘

2、技术对其进行深入分析，建立冠心病药物治疗效果的评估模型。并对几类模型的性能优劣进行综合性的比较分析，最终得到最优化的模型。该模型的建立可以为冠心病的临床药物治疗提供一定的参考作用和指导意义。关键词数据挖掘；冠心病；药物治疗 1 引言 1 引言随着现代信息技术的不断发展，大量的数据库也在日益膨胀。面对海量的信息数据，就需要我们运用相关的技术手段发掘出其中有用的、相关的、潜在的信息。由此，数据挖掘就应运而生了。作为一门新兴的技术，数据挖掘在各个研究领域得到了广泛的应用，并取得了重大的进展。近年来，数据挖掘在医疗中的应用也在逐渐发展。目前，数据挖掘的许多方法都在临床决策上有着广泛的应

3、用。例如，遗传算法可以用于治疗二尖瓣脱垂综合征的决策1，利用神经网络和模糊系统相结合可以分析肝脏的超声图像2，粗糙集理论可用于宫颈癌病变阶段3及肺癌的诊断4，利用贝叶斯网络可以建立起服用抗精神病药与心肌病发作之间的关系5。冠心病是目前威胁人类健康的第一杀手，据 2000 年世界卫生组织预测，2020 年，冠心病的死亡人数将高达 2500 万人/年，心肌梗塞将会成为人类的第一死因6。因此，预防和治疗冠心病，控制其发病率已经受到了全球的广泛关注。随着临床医学技术的发展，冠心病的治疗方法也逐步趋于多元化，其临床治疗手段有很多，主要分为药物治疗、手术治疗和介入治疗三类。其中，药物治疗又是最为基础的治

4、疗方法。冠心病的治疗药物种类有很多，如何选择一种最有效的治疗药物对提高治疗效率起到了关键性的作用。本研究针对冠心病治疗药物效果研究的不足，在对大量真实的冠心病患者的临床治疗数据进行简单的统计分析的基础上，进行了深入的挖掘分析，快速有效地找出其中潜在的关联性、规律性，从而给冠心病的药物治疗决策提供一个较为科学的参考。 2 相关技术与理论 2.1 数据挖掘技术 2 相关技术与理论 2.1 数据挖掘技术数据挖掘7（Data Mining， DM）就是指从数据库中提取出隐含于其中的、人们事先未知的、潜在的有用信息和知识的过程。它是现代信息技术迅速发展的产物，随着信息化的不断发展而发展8。主

5、要包括五类：关联分析、聚类分析、自动预测、异常检测和分类预测。随着数据挖掘技术的不断发展完善，每类挖掘模式都有多种算法。本研究所涉及的算法主要有 SVM （Support Vector Machine，支持向量机）、贝叶斯网络（Bayesian Network）、人工神经网络（Artificial Neural Network）、 Logistic 模型（又作 Logistic Regression）、2013中华医院信息网络大会征文，请勿转载决策树（Decision Tree）。 2.2 模型评估方法ROC 曲线 2.2 模型评估方法ROC 曲线在信号检测理论中，接收

6、者操作特征（Receiver Operating Characteristic，或者叫 ROC 曲线）是一种对于灵敏度进行描述的功能图像。ROC 曲线可以通过描述真阳性率（TPR）和假阳性率（FPR）来实现。ROC 分析给选择最好的模型和在上下文或者类分布中独立的抛弃一些较差的模型提供了工具。ROC 曲线首先是由二战中的电子工程师和雷达工程师发明的，他们是用来检测战场中的敌军的，也就是信号检测理论。之后很快就被引入了心理学来进行信号的知觉检测。ROC 分析现在已经在相关的领域得到了较快的发展，特别是在医学、无线电领域中。而且最近在机器学习和数据挖掘领域也有了很好的发展。 ROC 曲线分析通过

7、改变诊断阈值，可获得多对真（假）阳性率值。以假阳性率为横坐标，真阳性率为纵坐标，绘制而成的曲线称之为 ROC 曲线，ROC 曲线下的面积即为 AUC 值（Area Under Curve），以此反映诊断试验的价值。一般认为 AUC 值为 0.50.7 时诊断价值较低；为 0.70.9 时诊断价值中等；大于 0.9 时诊断价值较高。AUC 因不受患病率和诊断阈值的影响，可对两个诊断试验的准确度进行综合比较，因而成为目前公认的诊断试验最佳评价指标9。 2.3 数据挖掘软件 Clementine 和 SPSS 2.3 数据挖掘软件 Clementine 和 SPSS Clementin

8、e 是 ISL（Integral Solutions Limited）公司开发的数据挖掘工具平台。1999 年 SPSS 公司收购了 ISL 公司，对 Clementine 产品进行重新整合和开发。作为一个开放式的数据挖掘平台，Clementine 结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。本研究利用Clementine12.0 进行数据处理和建模，来预测不同药物对冠心病治疗效果的影响程度大小。 SPSS 是统计产品与服务解决方案（Statistical Product and Service Solutions）的简称，为 SPSS 公司推出的一系列用

9、于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称，有 Windows 和 Mac OS X 等版本。本研究利用 SPSS19.0进行 ROC 分析以及 ROC 曲线的描绘以评估不同模型的优劣。 3 研究过程 3 研究过程本研究针对高血压这一危险因素的冠心病患者的用药进行分析。所得到的已经确诊为冠心病的临床治疗数据主要包括患者的姓名、性别、年龄等个人信息，血脂、血糖、血压等生理指标，治疗用药、治疗时间、死亡率、治愈率等治疗信息。首先，将采集到的数据进行格式化的处理，再根据需要选择合适的挖掘算法对数据进行分析建模并评估，最终得到几种治疗高血压合并冠心病的效果较好

10、的药物。按照一般的基于 CRISP-DM 的数据挖掘流程，本研究的具体流程如图 1 所示：数据的提取与初步筛选利用SQL语句提取所需挖掘的数据数据概要治疗结果和治疗天数分类用药情况筛选和重构模型建立模型评估数据格式化药品分布年龄分布性别分布体重分布治疗结果分布治疗天数分布SVM模型贝叶斯网络神经网络 Logistic模型 C5.0方法ROC曲线AUC面积值结果分析最佳药物2013中华医院信息网络大会征文，请勿转载图 1 研究流程 3.1 数据提取与筛选3.1 数据提取与筛选研究所采集的数据来自北京某医院，该医院是一家三级甲等的综合性医院，能够展开床位近千张，年收治

11、病人 1.5 万余人，年门诊量近 50 万人次。根据对数据库整体结构的了解和分析，通过 SQL 语句从医院的原始数据库中提取出高血压型冠心病患者的诊断记录，并将诊断记录和病人的年龄、性别、体重以及住院期间用药情况等数据进行合并。最终筛选得到了该院 2004-2011 年间的 3904 例冠心病患者的临床治疗数据，其中用药总数为 68211 条记录。具体实现流程如下图 2 所示： DIAGNOSIS表诊断为冠心病且治疗结果不为空有高血压病史入院血压超过正常值合并根据病人ID字段合并添加性别信息并由出生年月与诊断日期导出年龄信息根据病人ID字段和诊断日期合并添加体重信息和住院

12、期间用药信息合并重复记录输出ORDERS表VITAL_SIGNS _REC表PAT_MASTER _INDEX表YesYesYes图 2 数据提取与初步筛选流程 3.2 数据预处理3.2 数据预处理本次研究中，在数据库提取数据时已对其做了初步的筛选合并，因此进行挖掘的数据源只有一个，数据格式也相对简单。在数据预处理中主要进行治疗天数和治疗结果的分类，以及将用药情况进行重构。具体的数据流如下图 3 所示：图 3 数据预处理 3.3 模型建立3.3 模型建立用药情况的重建将数据库中的大量数据记录格式化之后，可用于统计模型的建立以找出评估治疗效果的最佳治疗药物。整个建立模型的过程如图 4

13、中的流：图 4 目标 TREAT_RESULT 的建模流首先将药品使用重构表进行汇总，将之前的记录按照每一次诊断治疗记录（以唯一的ID 为标识）进行汇总，得出来的每一条记录就对应每一次诊断治疗记录的用药情况和治疗结果。以 ID、TREAT_DAY_CLASS 和 TREAT_RESULT_CLASS 字段为关键字段，对应的药品字段汇总其最大值（即出现“1”为该药物在一次诊断记录中使用过；否则为“0”未使用）。 2013中华医院信息网络大会征文，请勿转载对于一般模型的建立都需要将原始数据划分为训练集和测试集，其中训练集用于模型的建立而测试集用于模型的评估。因此将数据进行分区操作，按照

14、50%对 50%的比例。从测试集中过滤掉 ID、TREAT_DAYS_CLASS、TREAT_RESULT_CLASS 和分区字段以后，得到了建立模型需要的数据。模型的建立需要对处理的数据进行数据类型的规范以及选定输入变量和目标变量。本次模型的建立目标变量为治疗结果 TREAT_RESULT 字段，药品使用情况的字段作为输入。根据 Clementine 的建模选项板下的分类模型，分别对数据建立 SVM、贝叶斯网络、神经网络、Logistic、C5.0 分类模型。得到五种不同的模型后可以看到每个模型的输出结果中变量重要性的统计数据。如下图 5 所示：图 5 五种模型的变量重要性治疗天数

15、作为一个辅助因素评判治疗效果，同样将其作为输出，按照上述方法进行模型的建立，从而得到统计结果。 3.4 模型评估3.4 模型评估模型评估利用 SPSS 软件的 ROC 分析，需要预先对数据进行格式化处理。利用测试集数据与变量重要性结合计算各个诊断记录的预期结果，并将其导入 SPSS 数据集中。然后选择分析菜单下的 ROC 曲线图，将预测结果作为检验变量，TREAT_RESULT 作为状态变量，状态变量的值设为 0，输出下的条目全部勾选，确定执行操作。通过上述的方法得到五种模型的 ROC 曲线图，以及 AUC 值。如图 6 所示： 2013中华医院信息网络大会征文，请勿转载图 6 五

16、种模型的 ROC 曲线图通过五种模型的 ROC 曲线对比，得到相应的 AUC 值，如下表 1 所示：表 1 五种模型 AUC 值表从上表中的数据可以得出：五种模型中 C5.0 的评估效果最差，SVM 处于中等，贝叶斯网络、神经网络、Logistic 模型 AUC 值接近且 Logistic 略高，模型评估效果最佳。故最终选取最优的 Logistic 模型进行建模。类似的，治疗天数分类模型，通过同样的方法得到五种模型的 ROC 曲线图以及 AUC 值。通过比较分析，Logistic 模型为最优模型。 4 研究结果 4 研究结果将治疗结果和治疗天数所得到的变量重要性数据按照一定的权重比例合并，影响因素较大的治疗结果权重设为 0.8，治疗天数设为 0.2。根据结果可以得到变量重要性最高的若干类药物。具体的有效药物及其对冠心病治疗的药理作用如下表 2 所示：表 2 最佳治疗药物 5 总结 5 总结针对冠心病治疗药物效果的分析，主要有临床实验和药物统计两类研究方法。前者虽然可以较为科

展开阅读全文

20130522-526 基于临床数据挖掘的冠心病药物治疗分析

最新文档