医学语言处理技术及应用

资源描述

《医学语言处理技术及应用》由会员分享，可在线阅读，更多相关《医学语言处理技术及应用（5页珍藏版）》请在金锄头文库上搜索。

1、 1131医学语言处理技术及应用医学语言处理技术及应用李昊旻段会龙吕旭东李莹基金项目：中国高技术研究发展（863）计划资助项目（2006AA02Z348）浙江大学生物医学工程与仪器科学学院生物医学工程教育部重点实验室，310027，浙江大学玉泉校区新生仪大楼关键字关键字医学语言处理概念提取信息理解知识挖掘摘要摘要由于临床信息的复杂性和灵活性，病历以一种自然语言叙述性的方式来记录，这样的记录方式已经长期存在并将继续存在，病历具有丰富的信息资源可以服务于临床实践、临床研究以及临床质量管理等许多方面；爆炸式增长的生物医学知识普遍存在于自然语言形式的医学文献中，这些

2、知识中建立关联可以服务于新知识的发现。叙述性文本信息的自动利用需要自然语言处理技术，因而医学语言处理已经成为了医学临床实践和转化医学最为核心的信息技术挑战，研究和应用医学语言处理技术特别是中文环境下的医学语言处理技术对于我国医疗信息化具有重要意义。 1 引言 1 引言传统上病历中信息主要形式是自然语言，这包括了临床医生书写的住院志、病程记录、会诊记录、手术记录以及各种医技科室发出的放射、超声、内镜、心电、病历检查报告，这些叙述性病历信息构成了绝大多数的病历内容。医疗信息化和电子病历的发展虽然长久以来试图推动病历信息的结构化，但是由于临床信息的复杂性和灵活性，现有结构化实现技术无法满足临床

3、对于病历信息表示的要求，因而临床医生依然并将继续使用叙述性文本作为主要的形式来记录临床信息。每年投入在生物医学基础研究上数百亿计的资金，其中绝大多数的产出仅仅是文献，当科学分工越来越细，不同领域之间的沟通不足成为新知识发现的障碍，利用这些生物医学文献进行挖掘可以发现一些模式和规则来启发或者引导新的发现。无论是叙述性病历还是医学文献，其中具有宝贵价值的信息以自然语言的形式捆绑在一起，在医疗实践和研究中利用计算机来处理这类信息的需求越来越大。 2 医学语言处理和应用 2 医学语言处理和应用自然语言技术诞生于 20 世纪 60 年代，尽管当时的计算机所具有的能力还很弱，但计算语言学家已经瞄

4、准了利用计算机来进行文本处理和理解，该技术随人工智能、文本处理、信息提取、问答系统、对话理解、文档分类、机器翻译等应用的发展而成长起来。研究者建立了两套体系：基于语法及句法的符号学方法和基于1132语料库的统计学方法，然而自然语言的复杂远远超出了最初的想象，20 世纪 80年代后研究者认识到领域无关自然语言处理技术很难取得理想的结果，转而寻求在特定领域的语言处理，医学语言处理就是在这种背景下诞生的，很快医学语言处理就被认为是自然语言处理最合适的领域，其原因包括：医学语言是一种科学语言，它较日常交流用语更为规范；医学语言具有一定的通用性，可以涵盖一半的自然语言；医学实践中使用大量的自由

5、文本形式的文档，包含了绝大多数临床信息，而这些信息的计算机利用缺乏有效手段；文档的录入、管理、获取等工作相当繁重，占据了临床医护人员许多时间，迫切需要计算机来帮助解决；生物医学基础研究产生的大量的医学文献无法被充分的利用。医学语言处理技术随着医疗信息化以及电子病历的推广而逐渐成为医学信息学研究的重要环节，从简单的病历信息提取、报告自动编码到较复杂的信息理解甚至新知识的发现，相关的研究和应用越来越多。然而国内相关研究的开展和研究者还比较少，直接影响到我国医学信息学基础研究的发展，以及高层次医疗信息化，本文希望通过介绍医学语言处理技术及其应用来推动更多的研究者关注和参与到这个领域的研究中。

6、 2.12.1 医学语言处理和概念提取即使限制在医学领域，自然语言依然是一个复杂的信息体，因而比较可行的医学语言处理技术应用首先从较简单的概念提取开始。概念提取是从叙述性医学文档中提取部分信息并映射到标准术语编码，这些编码信息可以方便信息的获取和利用。这其中最成功和最知名的研究是 MedLEE（Medical Language Extraction and Encoding system），该系统从医学文档中提取 UMLS（United Medical Language System）概念的查全率和查准率已分别达到 83%和 89% 。其他的研究还有 MetaMap 和 IndexFind

7、er 等，该类研究的通常做法是处理文本信息并影射其中概念到统一的概念编码，基于这些编码可以建立索引方便对具有海量文本的信息库的查询和获取，或者根据这些编码来自动分类文档进行更高效的管理。目前广泛应用的在线医学文献库建设中也普遍采取了这样的信息检索技术，但病历文档同一般文档还具有一定的差异，经常需要对某些概念进行否定性质的描述，比如“未发现” “否认” “未触及”等描述是普遍的病历描述方式，因而要在病历中单纯的依赖文中有没有出现术语来作为信息检索的依据并不能取得好的结果，因此在病历文档中进行概念提取往往还需要进一步判断概念是否具有否定的上下文环境，相关的否定检出算法研究已有报道，

8、，这些技术已经实际应用于病历文档的管理和利用，比如在面向问题的病历系统中自动生成问题列表、临床报告系统中自动进行报告编码和分类索引等。虽然国外相关研究已经开展多年，国内相应的研究未见报道，一方面由于中文自然语言同英文自然语言之间本身存在较大的差异，相应的中文语言处理技术基础1133研究不足；另一方面国内的中文医学术语标准化进程不足，没有应用的标准化环境；最重要的是国内医疗信息化早期不重视临床信息的利用，随着这两年对于电子病历的关注以及一些病历的计算机解决方案和管理系统的出现，如何充分利用这些不断积累的具有丰富临床价值的信息已经成为一个课题。针对中文病历环境下实现术语提取和否定检出

9、研究显示中文语言处理虽然面临额外的分词过程，但是在否定检出过程中表现出更好的特性。 2.22.2 医学语言处理和信息理解医学语言处理的进一步利用是实现对于蕴含在文本中的信息进行计算机理解，由于许多信息并不是简单的概念可以表示的，而是涉及多个概念以及概念间关系，比如家族史中蕴含的遗传学信息，这些信息的计算机利用具有重大意义。首先，计算机信息理解有利于信息的分类和获取，减少原来人工查阅、分类以及获取的工作量；其次，计算机信息理解可以服务于计算机辅助临床决策支持应用，由于病历中蕴含了丰富的临床信息，而传统的临床决策支持应用中往往面临无结构化数据可用的局面不得不让临床人员重复录入结构化信息，因

10、而基于医学语言处理技术自动从病历中获取所需信息将使得计算机辅助临床决策支持获得更好的临床适用性，将临床决策支持功能集成到日常临床工作中。 Naomi Sager 是最早进行医学语言处理研究的，被称为医学语言处理之母，由她主持的 MLP（Medical Language Processor）通过维护起来的一个庞大的具有语义说明的词典可以对病历中的所有词语进行语义标注，由于自然语言信息表示的灵活性，这样的标注并不能解决信息的获取问题。目前还没有成熟的通用的信息获取方法，但是针对某个单一问题的信息理解的研究已经广泛开展，2006年 i2b2（Information for Integrating

11、 Biology & the Bedside）组织了一次通过自然语言处理技术来自动确认病历中患者吸烟状态的竞赛，共有 11 只队伍参加了这次竞赛提交了 23 份运行结果，其中 12 个系统的微平均 F 值在 0.84 以上。吸烟状态对于研究某些呼吸系统疾病，比如哮喘，具有重要意义，传统的信息获取通过人工从病历中判读吸烟状态，分析发现人工也会错误的判断患者的吸烟状态，即使在竞赛中两个专家共同做出的判断在最后判决中也会存在争议，因而这些系统可以取得这样的表现已经是相当不错。而类似吸烟状态这些的信息理解在临床中还有广泛的需求，而吸烟状态的确认只是其中较为简单的，在进一步的信息理解可能会涉及各种

12、症状体征的确认，从复杂信息中理解信息需要人工智能技术，目前常规的方式都是基于机器学习的方式利用神经网络、支持向量机等方式通过大量数据训练作为信息理解销歧的主要手段。 2.32.3 医学语言处理和知识发现生物医学研究的飞速发展带来知识的不断积累以及专业分工的细化，某个方向的研究成果也许可以用来解决另外一个方向的问题，而在缺乏沟通的情况下也许两个方向都不会注意到这些关联。尤其是以基因组学、蛋白组学为代表的生物医学基础研究同临床实践和临床研究之间的联系和沟通越来越少，在投入大量资金和技术到基础研究的同时临床获得的实际成果却1134相比太少，因而弥补生物医学基础研究和临床实践之间的鸿沟，将大量

13、的生物医学新知识转化为临床可用的有效预防、诊断、治疗的手段成为了生物医学领域新的战略性问题。在生物医学研究领域大量的知识以文献的形式存在于像 MEDLINE 这样的在线文献库中，这些资源为计算机辅助知识发现提供了机会也提出需求，比如可以从中寻找特定疾病的致病基因或者对应的治疗药品，。简单的针对医学文献的文本处理依然不能有效地沟通基础研究与临床实践，因此近来兴起的转化医学信息库，通过将基础研究的文献库和数据库与临床信息库和病历文档融合为新知识发现提供了新的平台。面向医学文献的自然语言处理和针对病历的自然语言处理具有不同的特点，医学文献通常经过严谨的方式书写，其中书写错误不是要面对的问

14、题，同时一些新的概念会被介绍；相反临床病历的书写可能存在非正规语法以及非标准化缩写，新概念往往较少出现。针对这些特点往往采用不同的自然语言处理技术来处理医学文献和临床文档，而一些人工智能技术比如贝叶斯网络、支持向量机、最近邻分类等也开始广泛应用于基于医学语言处理的知识发现。随着信息技术的发展以及转化医学信息学的兴起，利用信息技术来发现新的生物医学知识将成为一种常规的知识发现方式，而其中由于医学文献以及临床病历这两个最主要的信息挖掘材料都以自然语言的形式存在，医学语言处理技术将成为其中的关键技术。 3 讨论和总结 3 讨论和总结目前生物医学研究者已经为二十一世纪的医学勾画了一个 4

15、P（Predictive、Personalized、Preemptive、Participatory）的目标，这样的医学将允许我们预测（predict）某一疾病会在某时、以某种方式发生在某个特定个体身上，而且针对个体（personal）情况进行准确的靶向治疗，同时这种预测和个性化治疗将允许我们在疾病发作之前进行阻击（preempt），而这样的以慢性病为主的疾病谱治疗将不再是围绕医生展开而是需要医疗机构、社区以及个人的共同参与（participation）。由于 4P 医学要求知识的极大丰富是人工无法完成的必须依赖于医疗信息化的支撑，而其中最为关键的是计算机辅助临床决策支持系统与临床实践的

16、紧密结合，能够针对病人的个体信息结合知识库完成相关的 4P 服务，由于临床信息的复杂性，我们可以大胆的预测自然语言仍将是临床实践中信息表示的基本方式，因而医学语言处理技术将是支撑 4P 医学战略目标的核心信息技术，开展医学语言处理技术的研究具有重要的战略意义。虽然目前来说中文医学语言处理面临许多的困难，一些基础性工作也落后于国外研究，比如服务于医学语言处理的专业词汇集、标准术语集、临床概念及关系、语义词汇库、医学语料库等都没有建立起来，同时一些国外的基础研究资源比如美国国家医学图书馆的 UMLS（Unified Medical Language System）等也缺乏中文支持，并且中文自然语言处理同西方语言之间具有许多不同，需要突破传统的基于西方语言的理论针对中文建立自然语言处理体系。但同时也要认识到由于中1135文语言的独特性，使得我国在发展中文医学语言处理技术的时候可以具有先天的文化优势，同时伴随国内医疗信息化蓬勃发展，中文医学语言技术处理将具有广阔的市场空间和价值。

展开阅读全文