中文分词技术在电子病历系统中的应用

资源描述

《中文分词技术在电子病历系统中的应用》由会员分享，可在线阅读，更多相关《中文分词技术在电子病历系统中的应用（23页珍藏版）》请在金锄头文库上搜索。

1、中文分词技术在电子病历系统中的应用中文分词技术在电子病历系统中的应用二一二年十月摘要电子病历（Electronic Medical Record，EMR）是医疗机构医务人员对门诊、住院患者临床诊疗和指导干预的、使用信息系统生成的文字、符号、图表、图形、数据、影像等数字化的医疗服务工作记录，是居民个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源，它可在医疗卫生服务中作为主要的信息源，取代纸张病历，医院通过电子病历以电子化方式记录患者就诊的信息，包括：首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等，其中既有结构化信息，也有非结构化的自由文本，还有图形图象信息，在医疗

2、中作为主要的信息源，提供超越纸张病历的服务，满足医疗、法律和管理需求。电子病历系统（Electronic Medical Record System, EMRs）是针对基于计算机和信息网络的电子病历进行采集、储存、传输、展现、检索、质量控制、统计和利用的系统。为了进一步推进以电子病历为核心的医院信息化建设工作，提高医院信息化管理水平，截止2012年1月底，卫生部先后制定下发了电子病历基本规范（试行）、电子病历系统功能规范（试行）、电子病历系统功能应用水平分级评价方法及标准、电子病历基本数据集（征求意见稿）等法规和规范性文件。在电子病历系统功能规范（试行）中明确了对电子病历书写需要将自然语言方式

3、录入的医疗文书按照医学信息学的要求进行结构化以及对结构化数据的检索和统计进行了要求。在电子病历基本数据集（征求意见稿）中进一步确定了电子病历数据进行数据交换的基本数据集模型。由此可见电子病历的“结构化”是电子病历系统设计和实施的重点和难点。本文将阐述如何通过在目前新版电子病历系统中引入中文分词技术，解决目前电子病历系统中电子病历数据的“结构化”难题，实现电子病历用户在实际应用中通过自然语言进行自由文本方式的输入的同时，能够通过计算机的辅助进行病历内容的结构化，为日后的查询、统计、数据交换提供基础。本文阐述的主要内容如下：(1) 目前电子病历系统的结构化问题；(2) 中文分词技术概述；(3) 中

4、文分词技术在电子病历系统结构化中的具体应用；(4) 中文分词技术应用的分析总结及展望。关键词:中文分词、电子病历系统、结构化第一章电子病历的结构化1.1 为什么要结构化电子病历相对于传统手写病历的优点是显而易见的，并且随着IT技术的发展，以及医疗信息化建设的利益加强，电子病历的发展是必然的趋势。而且顺应以电子病历为核心的医院信息化建设工作的推进，电子病历已经成为医疗信息化的重要组成部分。国内电子病历开始于2000年左右，在此之前所开发的电子病历只能称之为病历电子文档化，基本上都是基于Word或写字板的功能，目前这种电子文档化病历目前仍然在一些医院正在使用。国内较早的一些结构化电子病历采用全结

5、构化的书写方式，比如南京海泰基于WEB架构的表格式电子病历，东软的自定义报表式电子病历。所谓的电子病历的“结构化”是指从医学信息学的角度将以自然语言方式录入的医疗文书按照医学术语的要求进行结构化分析，并将这些语义结构最终以关系型结构的方式保存到数据库中。例如：如果描述一个“腹部疼痛2日，伴呕吐”的病症，按照词语的类别，把它划分为“腹部”（名词）、“疼痛”（动词）、“2”（数词）和“日”（单位名词），“伴呕吐”（动词）5个部分。如果按照医学术语进行结构化分类分析，“腹部”是这一句话中描述“身体部位“的元素，”疼痛“是描述“症状“的元素，”2“是“数值”元素，“日”是“时间单位”元素。这样电子病历

6、的内容就成了结构化的描述，上述的结构不仅在编辑过程中使用，在保存时依然可以保持这些结构以便后续的利用。电子病历结构化的优势表现在于以下几个方面：1. 降低了病历出错的概率，多层次的结构化病历通过数据量化标准模式，把文字录入式的描述降低到最少，操作简单，同时避免了书写病历过程中用词的随意性，为今后的数据收集，研究提供了方便；2. 优化了电子病历通过结构化中的元数据信息进行查询和统计分析；3. 实现了共享和交换，电子病历和医院中其它系统的数据交换是必然的。这意味着，只有遵循国标所规定的全结构化的病历文档结构才是自由交换数据的前提。4. 更适合临床信息化的需要，通过结构化电子病历，才能将病历中的病史

7、、临床检查检验结果、诊断治疗信息进行提取和关联，并分析出最科学的临床路径。1.2 结构化的挑战结构化电子病历相对于传统的电子文档化病历有很多现实性的意义和优势，在实际应用中，结构化电子病历在教学、科研方面的优势也得到了大家一致认可。但是，电子病历不应该为结构化而结构化，比如，前文所提到的一些早期的一些结构化电子病历产品，就是强制的将病历划分成几个条目或者区域，要医生逐条逐项的去输入，不仅输入起来很不方便，而且灵活性也很差。而且，结构电子病历虽然从某种程度上减轻了医生的工作量，提高了书写效率,改善了病历正规化，但是也存在一些弊端，一是医生可以对电子化内容进行复制粘贴，影响了医生的思维过程，虽然节

8、约了书写的时间，使得病历本身的内容失去了科研循证的价值和病历质量；二是医生依赖于电子病历的结构化辅助输入，不能起到业务训练的效果和目的，所以，现在有些医院要求实习医师、试用期医务人员不允许采用结构化电子病历模板进行病历书写，而且为了防止实习医师、试用期医务人员依赖范文，减少差错，还要求注册医生对病历进行审阅，并保留双签名。从结构化电子病历的各个优势比较来看，电子病历的存储结构的“结构化”的需求更甚于电子病历输入方式的“结构化”的需求，所以，电子病历更应该是“可结构化”的电子病历，即电子病历在存储结构上应当是“可结构化”的。这里的“可结构化”的含义是，在占有合理的存储空间和高效的性能的基础上能够

9、根据医疗工作中不同情况的实际需求实现病历数据的结构化、非结构化和半结构化存储。这就是说，当仅仅为了记录医疗经过，不需要快速查询的情况下，病历应当是非结构化的。当需要快速检索和结构化查询的情况下，病历应当时结构化的。要在同一病历中同时出现上述两种情况复合存在的时候，病历应当是半结构化的。电子病历系统在实际临床环境的运用情况是，医生希望书写病历时采用自由文本录入的方式录入，能够对病历内容的进行复制、粘贴操作，同时通过病历记录（范文）和内容片断两级模板的辅助输入，通过数据共享快捷输入，迅速检索，调用处理各种诊疗信息，减轻书写强度，提高工作效率。结构化电子病历那种元数据输入方式在有些科室用起来可能比较

10、顺畅，比如耳鼻喉科；因为具体的业务的关系，这些科室的结构化电子病历原型或模板比较适合结构化定义，而在有些科室，因为实际业务的关系会存在不好进行结构化定义和结构化输入不方便这两个问题，所以，他们更倾向于采用非结构病历。正因为如此，电子病历系统必须考虑结构化和非结构化模式并存，而且应该考虑所有病历文件应该都是“可结构化”的。从技术的角度来看，电子病历文本的“结构化”的实现过程就是将非结构化的自由文本按结构化的要求进行结构化分析出语义结构并转换成结构化需要的关系型模型结构的过程。图示如下：这里的结构化处理，就将运用下面将要介绍的中文分词技术。第二章中文分词技术2.1 中文分词技术概述什么是分词？分

11、词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文为代表的印欧语系中，句子是以词为单位，词与词之间是通过空格隔开，而以中文为代表的汉藏语系中，句子由字构成，句子中所有的字连起来才能够表达一个完整的意思。例如：英文中典型的主系表的句子，“Im a student”,翻译成中文为“我是一个学生”，在英文中通过句子中的空格可以很容易的区分student是一个单词，意思是学生，在中文中“学”，“生”假如分开来，就无法理解正确的意思，必须将它们合在一起才能表示出准确的意思。在上面的例子中可以看出，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段可以通过明显的分界符来简

12、单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，但是在词这一层上，中文比之英文要复杂的多、困难的多。所以在印欧语系中将句子中的单词重新组合成词序列，基本上不存在任何问题，但是将中文的句子中的汉字序列切分成有意义的词就相当困难了。比如：“南京市长江大桥欢迎你“，可以划分成”南京市/长江/大桥/欢迎/你”，也可以划分成“南京/市长/江大桥/欢迎/你”，所以如果是在一定的语境下，人是可以很容易的得到确切的意思的，但是，如果交给计算机来做，是相当的困难的。所谓的中文分词，就是把中文的汉字序列切分成有意义的词的序列的过程。中文分词主要应用于信息检索、人机交互、信息提取、文本挖掘、

13、中外文对译、中文校对、自动摘要、自动分类等很多方面。在互联网信息量飞速增长的今天，使得搜索引擎成为人们高效获取有效信息的首要途径，目前主流的搜索引擎，比如Google，Baidu，都是基于关键字来匹配搜索结果的，评价一个搜索引擎的优劣，最直接的标准就是信息检索的效率，搜索引擎怎么才能快速检索到关键字呢？这就得依赖搜索引擎的数据存储机制-倒排索引。这里的倒排索引类似于数据库中的索引，搜索引擎在外边扒完网站内容后，要将所有的内容中的关键字预先进行编目，形成一个结果和关键字的对应表，这个对应表就是所谓的倒排索引，搜索引擎在建立倒排索引时，就需要用到中文分词技术，并且分词的过程发生在用户输入查询内容时

14、和服务器建立索引时。例如：Baidu搜索引擎搜索用户查询词“中国民歌钢琴曲”2.2 中文分词算法现有的中文分词算法大体可以分为三大类：基于字符串匹配的分词方法、基于统计的分词方法、基于理解的分词方法；下面就这三大类中文分词算法分别做一个简要的描述。2.2.1 基于字符串匹配的分词方法这种算法是目前搜索引擎广泛采用的一种分词方法，也称之为基于词典的分词法或机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。比如，匹配“中联信息”，在词典里面能够匹配的有：中、联、信、息、中联、信息、中联信息。如何选择其中最佳的匹配就需要

15、依然定义的策略，比如，这里可以定义策略为长度最大的最佳匹配。常用的匹配规则有：l 正向最大匹配算法正向最大匹配即方向为从左往右正向匹配，例如：“我有意见分歧”，词典中有如下词条：我、有、意见、有意、分歧，按正向最大匹配算法进行匹配，得到的结果就是“我/有意/见/分歧”，这里明显就错了，那是因为“有意”在词典中优先被匹配出来了。l 逆向最大匹配算法逆向最大匹配即方向为从右往左逆向匹配，上例经过逆向最大匹配算法进行匹配，得到的结果就是“我/有/意见/分歧”,这样就正确了，统计结果表明:单纯使用正向最大匹配的错误率为1/169，单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹

16、配。l MMSEG算法MMSEG算法相对上面两种算法来说比较复杂,是一种带4个歧义消解规则的正向匹配算法，因为其正确率比较高所以被普遍采用。上述各种基于字符串匹配的算法都不是完美的，总会有出错的时候。2.2.2 基于统计的分词方法这种分词方法的基本思想是，从形式上看，词是稳定的字的组合，因此在上下文中，相邻的字同时出现的次数越多，就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计，计算它们的互现信息。定义两个字的互现信息，计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值

展开阅读全文