深度电子病历分析研究综述

上传人:ji****81 文档编号:215963249 上传时间:2021-11-27 格式:DOCX 页数:15 大小:38.09KB
返回 下载 相关 举报
深度电子病历分析研究综述_第1页
第1页 / 共15页
深度电子病历分析研究综述_第2页
第2页 / 共15页
深度电子病历分析研究综述_第3页
第3页 / 共15页
深度电子病历分析研究综述_第4页
第4页 / 共15页
深度电子病历分析研究综述_第5页
第5页 / 共15页
亲,该文档总共15页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《深度电子病历分析研究综述》由会员分享,可在线阅读,更多相关《深度电子病历分析研究综述(15页珍藏版)》请在金锄头文库上搜索。

1、 深度电子病历分析研究综述 蒋友好摘要:伴随医院信息化建设,大量的电子病历数据得以保存,但如何分析和利用这些数据成为医疗健康领域一个重要的研究课题。深度电子病历分析以深度学习技术为基础,通过特征自学习,避免了在数据预处理和特征工程上耗费大量时间,而且还能有效捕获数据间的未知关系,提高算法性能。本文首先概述了5类常用的深度学习模型及其变体,其次详细分析了这5类模型在电子病历分析上的应用情况,最后从数据异质性、公开数据集和模型可解释性三个方面对这一领域当前的机遇和挑战做了总结。关键词:电子病历;深度学习;卷积神经网络;循环神经网络:TP311 :A :1009-3044(2018)15-0301-

2、04An Overview of Research on Deep Electronic Health Record AnalysisJIANG You-hao1,2(1.Department of Control Science and Engineering School of Electronics and Information Engineering Tongji University,Shanghai 201804,China;2.Shanghai Putuo District Central Hospital, Shanghai 200062, China)Abstract:Wi

3、th the development of hospital informatization, the vast amounts of raw electronic health records have been saved. But how to analyze and utilize these data becomes an important research topic in the field of healthcare. Based on deep learning technologies, deep electronic health record analysis mod

4、els not only can learn features directly from the data itself, avoiding the cost of time on data preprocessing and feature engineering, but also can gain high performance by effectively capturing latent relationships between data. In this paper, five commonly used deep learning models and their vari

5、ants are firstly discussed, and then analyzes some electronic health record analysis applications in detail. Finally, we summarize the current opportunities and challenges from three aspects: data heterogeneity, public datasets and model interpretability.Key words: Electronic Health Record (HER); De

6、ep Learning; Convolutional Neural Networks (CNN); Recurrent Neural Network (RNN)引言隨着医院信息化建设不断深入,电子病历(Electronic Health Record,EHR)系统在临床诊疗过程中得到了广泛应用,也因此产生了大量的医疗数据。这些数据记录了患者所有的诊治历史,包括人口统计学信息、诊断、实验室检验结果、放射影像、处方、临床记录等1。之前,电子病历数据主要被用来提高临床诊疗效率,并方便医院管理。但随着大数据和人工智能技术的飞速发展,许多研究者认为电子病历数据对提高医护质量、保障患者安全、降低治疗费用等

7、方面大有裨益2-4。尽管电子病历数据越来越容易获取,但其异质的特性给分析带来了巨大的挑战。从表示形式上来看,电子病历数据有以下5种类型:1)数值型,如年龄、体重;2)时间日期型,如入院时间、处方开立日期;3)类别型,主要是受控词表中的代码,如性别、国际疾病分类代码ICD-10;4)自然语言书写的自由文本,如放射学报告、出院小结;5)时间序列,即按时间顺序排列的一段数值或一组文本,如生命体征监护记录、病程记录5。面对这些异质的数据类型,传统的机器学习与统计技术通过从数据中抽取一组特征来表征数据,并作为模型的输入,训练各种分析模型。但上述方法存在两点不足:1)特征是人手工抽取,依赖于专家的领域知识

8、,这些知识通常都是已知的,不能发现数据间的未知关系;2)80%的工作用于数据的清洗、预处理等,大大限制了模型的可伸缩性4。近年来,深度学习在许多领域都取得了巨大的成功,通过深层次的分层特征构建,有效地捕获数据间的未知关系6。相比于传统的机器学习方法,深度学习通过直接从数据本身习得最优特征,不需要人工指导,实现了特征的自学习,并能自动发现那些数据间未知或隐含的关系。当前,已有研究人员将深度学习应用在电子病历分析上,取得了比传统机器学习方法更好的结果,而且在数据预处理和特征工程上耗费更少的时间。基于前人工作,本文从深度学习模型的角度回顾了深度电子病历分析领域取得的众多研究成果。在接下来的部分,第2

9、节概述5类常用的深度学习模型及其变体,第3节详细分析这5类模型在电子病历分析上的应用情况,最后第4节总结当前面临的挑战并展望未来的发展方向。1 深度学习模型概述经过多年发展,深度学习已包含各种各样的技术。本节中,我们将简要概述最常见的5类深度学习模型,这些模型已在深度电子病历分析上被广泛使用。从模型架构的角度,这5类模型可划分成两大类,一类使用监督架构(包括多层感知机、卷积神经网络、循环神经网络),另一类使用无监督架构(包括自编码器、受限玻尔兹曼机)。下面我们对这5类模型逐一进行介绍。1.1 多层感知机多层感知器(Multilayer Perceptron,MLP)是一类包含多个隐层的人工神经

10、网络,第i层的神经元与第i+1层神经元完全连接。其中,每个隐层的神经元将前一层的输出加权求和,再经过一个非线性激活函数,其结果作为神经元的输出。常见的非线性激活函数有sigmoid和tanh,现在更多地使用ReLU函数。经过模型的训练,隐层神经元的权重得到优化,网络也从学到了输入x和输出y之间的关系。随着隐层的增加,输入数据也会以更抽象的形式表达出来。虽然MLP模型结构很简单,但其他神经网络架构经常会在最后包含一个由全连接神经元组成的MLP结构。1.2 卷积神经网络卷积神经网络(Convolutional Neural Network,CNN)是近几年最流行的一个网络模型,特别是在图像处理领域

11、。相比于MLP的全连接结构,CNN只做局部连接。例如,一张50x50的图片,MLP会将其展开成一个2500维的向量作为网络的输入,而CNN将其看成是局部像素块的集合,对每个相同大小的像素块乘以一组权值,该过程称为“卷积”,这组权值称为“卷积核”。当卷积核在整个图片上移动时,可以从中提取出有意义的特征。CNN的特性可总结为:局部连接、权值共享。由于卷积核比完整的输入要小,所以CNN的参数更少。而且卷积核在整个图片上移动时,每个像素块乘以的都是一组相同的权值,所以权值是共享的。卷积操作所在的层称为卷积层,卷积层之后,通常会跟一个池化层用于聚合卷积层提取到的特征。常见的池化有最大池化和平均池化。1.

12、3 循环神经网络当输入数据具有清晰的空间结构(如图片)时,卷积神经网络是一个合理的选择。但当输入数据按顺序排列(如自然语言或时间序列数据)时,循环神经网络(Recurrent Neural Network,RNN)则更合适一些,因为它具有处理长时间依赖关系的特性。RNN在更新隐态ht时,不仅依赖当前时刻t的输入xt,也依赖前一刻的隐态ht-1。依此类推,ht-1依赖于xt-1和ht-2。通过这种方式,最后输出的隐态包含先前所有输入元素的信息。流行的RNN变体有长短时记忆单元(LSTM)和门控循环单元(GRU)模型,这两者都被称为门控循环神经网络。标准RNN由相互连接的隐藏单元组成,而门控RNN

13、中每个隐藏单元被一个包含内部循环的特殊单元和一组控制信息流的门所取代。相比于标准RNN,循环RNN在建模长时间依赖关系上更有优势。1.4 自编码器自编码器(Auto-Encoder,AE)是一个无监督表示学习模型,最初被用于有监督深度学习模型的预训练,对那些标记数据很少的情况特别有用,但自编码器依旧可以应用在完整的无监督学习任务中。自编码器包含编码和解码两部分,输入x先被编码为一个低维空间表示z,再通过解码重建x的近似表示x。自编码器训练时,通过最小化重建误差x-x,学习表示z。训练完成之后,只使用编码部分获得输入的编码表示。由于自编码器将输入数据转换成低维的、只存储重要信息的向量,因此它和標

14、准的降维技术(如主成分分析、奇异值分解)很像。但自编码器优势在于隐层的非线性激活函数,这种非线性变换可以用来解决许多复杂问题。研究者常使用堆叠的方式构建深度自编码器网络。常见的自编码器变体有降噪自编码器(DAE)、稀疏自编码器(SAE)、变分自编码器(VAE)等。1.5 受限玻尔兹曼机另一个无监督表示学习模型是受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)。与自编码器不同之处在于,RBM通过一个随机视角来估计输入数据的概率分布,以此来对数据的生成过程进行建模。因而,RBM也被看作生成模型。在标准玻尔兹曼机中,所有单元之间采用全连接的方式,而在RBM中,任何两

15、个可见单元或任何两个隐藏单元之间没有连接。RBM的训练常采用随机优化,如Gibbs采样,生成输入数据的表示。此外,RBM可被分层堆叠形成一个深度置信网络(DBN),用于监督学习任务。2 深度学习模型在电子病历分析上的应用介绍完上述5种常见的深度学习模型,本节将详细分析这些模型在电子病历分析研究中的应用情况,包括应用于哪些任务,对模型做了哪些适配,以及取得的成果有哪些。表 1从深度学习模型的角度,给深度电子病历分析研究做了一个分类。2.1 多层感知机由于多层感知机比较简单,它在电子病历分析中多作为基础模型存在。Choi等7使用嵌入患者向量的MLP模型来预测心脏衰竭,其中患者向量通过临床事件的分布

16、式表示获得。患者一次就诊过程可以看作一个有序的临床事件集合,从入院、检查、手术、医嘱到出院,使用临床事件集合表示患者的方法称为患者向量表示。文献7和8均借鉴词向量分布式表示中的skip-gram方法来获取临床事件的分布式表示。2.2 卷积神经网络卷积神经网络在入院概率预测和命名实体识别任务中均有应用。Nguyen等9使用CNN来预测出院后无计划的再入院概率,网络输入为离散的临床事件代码,结果显示他们的方法优于Bag-of-Codes和Logistic回归两个基准模型。有趣的是,他们发现输入序列中的长时间间隔并不会影响预测的准确性,他们也没有对数据做特殊的预处理。Wu等10将CNN应用在中文临床记录文本的命名实体识别任务中,他们使用CNN对文本进行词向量的预训练,以此提高基准模型的准确率。2.3 循环

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 调研报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号