医学数字资源语义互联模式研究

上传人:kms****20 文档编号:37854851 上传时间:2018-04-23 格式:DOC 页数:12 大小:42KB
返回 下载 相关 举报
医学数字资源语义互联模式研究_第1页
第1页 / 共12页
医学数字资源语义互联模式研究_第2页
第2页 / 共12页
医学数字资源语义互联模式研究_第3页
第3页 / 共12页
医学数字资源语义互联模式研究_第4页
第4页 / 共12页
医学数字资源语义互联模式研究_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《医学数字资源语义互联模式研究》由会员分享,可在线阅读,更多相关《医学数字资源语义互联模式研究(12页珍藏版)》请在金锄头文库上搜索。

1、 医学数字资源语义互联模式研究医学数字资源语义互联模式研究摘要在充分复用丰富的医学知识组织体系基础上,构建以umls 为主导的多本体融合的医学数字资源语义互联模式,即一种基于全局本体统控、多种本体融通的模式框架。以 umls 为主导的多本体融合模式由三个基本层和两个链接层构筑。从 umls 本体的全局统控、多本体融合的语义标引机制、多本体融合的语义检索模式、多本体融合的信息集成构架这 4 个方面详细阐述医学数字资源语义互联的机理。从自然语言处理、智能检索、本体学习、知识发现和专业知识聚类等方面分析医学数字资源语义互联的功能。关键词语义互联 本体 全局本体 umls1 引言语义提取、语义分析、语

2、义检索、语义集成和语义互操作已经成为当前语言学、逻辑学、图书馆学情报学、计算机科学等领域的研究热点。各领域从不同角度进行理论探讨和技术挖掘,力图进一步推动数字资源的语义互联和语义互理解。随着本体理论的日趋深入和本体技术的渐臻发展,本体作为一种蕴含知识间语义关系且能在知识层提供知识共享和复用的工具已经得到共识,以本体为知识组织核心的语义检索成为主要研究方向,并已积累了一定的研究成果。在此基础上,专家学者开始探讨本体在知识管理、语义互操作、决策支持和推理中的应用,并探讨本体促进数字资源语义互联的模式、机制并构建实验性系统。在医学领域,由于美国国立医学图书馆长期的积累,已经形成世界范围公认的知识组织

3、体系,包括科学的叙词表、各种本体、医学术语标准、国际分类标准等。这为医学领域的数字资源进行语义互操作奠定了基础,为整合分散的、异质的各类生物医学数据源提供了保障。本文整合各种领域本体,集成各领域本体中的概念、术语和概念之间的语义关系,提出了医学数字资源语义互联模式以 umls为主导的多本体融合模式。本文的研究意义在于促进各种知识本体在医学信息领域中的有效共享,为建立智能化的医学临床科研融合系统提供基础性研究,为进行深层次的医学数据挖掘与服务提供理论支持。2 医学数字资源语义互联模式umls(the unified medical language system)是美国国家医学图书馆(natio

4、nal library of medicine,nlm)设计和维护的一体化医学语言系统。umls 词表已成为词典标准在生物医学知识中共享,并被应用于生物医学数据库的信息提取和集成、本体的语义集成等。鉴于此,在构建医学数字资源语义互联方面,充分利用专家对 umls 在描述概念方面已取得的研究成果不失为一个捷径。医学数字资源语义互联模式是以 umls 为主导的多本体融合模式,其充分考虑了 umls 在描述概念和语义集成方面的优势地位,为生物医学用户提供了统一的语义空间。在该语义空间中,异构数字资源通过语义标引实现语义互理解,用户可以对生物医学文献、生物医学数据库、临床数据进行数据挖掘、数据集成、决

5、策支持、自然语言处理和知识发现,实现对知识的智能服务和共享。该模式是一种基于全局本体统控、多种本体融通的数字资源语义互联模式框架,见图 1。在该模式中,每一种本体发挥他们各自在数据挖掘、语义分析、语义检索方面的作用,充分体现出本体的复用以及对现有知识组织体系的再利用;另外,该模式将提供词典标准的 umls 作为全局本体,形成共享的词汇集,从而保证本体之间的语义互理解。3 医学数字资源语义互联的结构以 umls 为主导的多本体融合模式由三个基本层和两个链接层构筑。3.1 基本层用户层。该层是系统与用户的交互接口,用户通过应用接口层对异构数据源进行语义查询、数据挖掘等操作。语义层。该层是系统的核心

6、层,是以 umls 为主导的多本体融合数字资源互联模式的关键所在,该层以 umls 为全局本体,通过本体映射和本体集成方法与工具复用医学生物学领域本体。数据源层。该层集成异构数据,包括临床数据、实验数据、基因(蛋白质)数据、文献数据和网页数据。3.2 链接层知识管理层。该层位于数据源层和语义层之间,在该层上,本体作为一种词汇来源支持对数据和资源的标引注释、检索和跨医学信息资源和本体的映射,反映数据资源层与语义层的交互。决策支持与推理层。该层位于用户层与语义层之间,在该层上,本体作为一种语义核心集支持对自然语言的处理、数据的集成、决策支持以及知识发现。三个基本层是医学数字资源语义互联的根本和目的

7、所在,两个链接层是数字资源语义互联功能和智能的体现。4 医学数字资源语义互联的机理4.1umls 本体的全局统控医学知识本体为用户、资源和服务提供了信息交互的理解平台,为信息共享提供了可能性。目前,国际上开源的生物医学领域本体大体分为 4 种:基于医学信息检索的本体类型(umls、mesh),基于生物医学数据的本体类型(obo 系列本体、go),基于临床医学的本体类型(opengalen、转化医学本体 tmo),基于医学调查的本体类型(obi)。这些医学领域本体或者建立了临床术语,或者为关联、集成和转化以患者为中心的数据提供了框架,或者定义一套结构化的通用的受控词表,都已经应用于自然语言处理的

8、各个方面,如在词义冲突消除、语义冲突化解、语义检索、机器理解等方面,这些本体库各具特色,而 umls 在描述概念、术语、概念间关系、语义类型和语义关系方面更为全面和成熟。医学数字资源语义互联模式框架中,umls 起全局本体的作用,利用 umls 融合语义互联框架中的局部本体,诠释用户、资源的语义,为两者之间的语义互联提供纽带。4.2 多本体融合的语义标引机制在医学领域,最重要的三种数据资源是:生物(医学)文献、临床文献和基因产物。目前对这三种数据资源进行标引都有通用的标引词表和本体,这些现有的知识组织体系是信息组织专家多年研究的成果,已被广泛接受而且拥有大量的研究型用户,对这些知识组织体系的继

9、承有助于促进数字资源语义互联的快速实现。生物(医学)文献。生物(医学)文献数据库是已广泛为医学领域学者和研究者使用的数字资源,对于这些商品化的数字资源,已经进行了标引(注释大多采用人工标引方法),标引采用 mesh 词表和基因本体(go)。临床文献。对于临床文献,目前世界上通常使用国际疾病分类(icd)系统进行编码,另外,snomedct 正在被越来越多的国家作为电子健康档案的标准术语,除此之外可以使用 mesh 进行注释。基因产物。在生物学中,需要对实验数据的功能性描述进行注释。如使用基因本体对实验中基因产物的功能注释,复用snomed ct 和美国国家癌症研究所发布的 nci 叙词表的 o

10、wl 版本对组织微序列数据库中的数据进行注释,利用 mesh 对基因表达库中的人类疾病进行注释。在以 umls 为主导的多本体融合模式中,底层的数据源由各种医学知识本体进行语义标注,再借助于 umls 这一全局本体对已经进行了语义标引的数据进行语义互联。umls 与各种叙词表、开源本体之间的映射借助于 lexical grid(词汇网格)。lexical grid 是美国梅奥医学中心生物医学信息学部设计的,旨在利用公共的工具、数据格式以及读取(更新)机制来弥补格式、配套工具以及编程接口方面的互不兼容问题,从中发挥桥梁和纽带的作用。lexical grid 对有关资源的表达由一个单独信息模型实现

11、,该信息模型可通过一套公共的应用编程接口(application programming inter-faces,apis)加以访问(存取),这些 apis 则是借助于共享型的索引加以联合,并且,这些索引可以在线下载、松散耦合、本地扩展、全局修订以及在网络空间和网络时间范围内现成可用,且彼此相互交叉链接。如图 2 所示:4.3 多本体融合的语义检索模式以 umls 为主导的多本体数字资源语义互联系统的语义检索子系统运用 umls 本体对各种数字资源进行检索和浏览之后,对产生的检索结果进一步进行知识挖掘。用户提交检索词或检索式后,系统接受返回的检索结果,利用 umls 本体对检索结果进行词串鉴别

12、、术语提取,最终到概念识别,通过数据挖掘,使检索结果成为进一步检索的候选检索词。将检索结果对应的概念转换成 umls 本体的类,并将检索结果与 umls 类对应起来,形成检索结果的可视化数据,此时的检索结果不仅仅是字符匹配,而是基于 umls 概念的检索结果分析。在检索结果导航中,根据 umls 本体概念之间的 11 种关系(如直接上位关系、直接下位关系等)提供扩检和缩检功能。在检索结果导航中,根据 umls 概念的语义关系(54 种语义关系),提供概念与概念之间在语义关系上的反馈式检索方式。通过用户积极性反馈式的进一步选择与确认,进行检索结果的扩检与缩检,当然这一步需要用户具有相关知识。um

13、ls 作为一种全局本体,通过概念映射到各个局部本体,进而形成检索结果导航模型。根据检索结果导航模型,检索结果被统计并对应到相应的 umls 分类导航目录和各本体的分类导航目录,用户可利用该导航目录快速找到自己所需要的文献。该语义检索模式,提供以 umls 为主导的多本体检索结果分类概览,帮助用户实现基于概念的检索结果快速导航;自动提供与检索提问相关的术语;自动提供与检索提问相关的上位概念、下位概念和同位概念;自动提供与检索提问相关的概念之间的语义关系;自动提供与检索提问相关的准确的生物实体,从而提高检索的准确率和召回率。4.4 多本体融合的信息集成构架信息集成分为:结构集成、语义集成和智能集成

14、。以 umls 为主导的多本体融合模式以全局本体 umls 为中心纽带,在结构化集成的基础上,对信息间语义的关系实施深度挖掘和充分利用,进而完成语义级信息集成。一方面,通过提供医学领域的全局本体umls,为数据集成所需要的标准化提供支持,可将要集成的数据源转换成一种通用格式并将其转换为通用词汇。另一方面,围绕umls 本体,可以定义数字资源语义互联全局架构,可根据全局框架进行语义查询,并在全局性架构和本地架构(要集成的数据源架构)之间进行映射。参考基于本体的信息集成系统tambis,biomediator、ontofusion、ariane 和 masboi,结合基于语义模型的信息抽取概念模型

15、,设计信息集成框架,如图 3所示:各组件的功能和作用如下:原始信息。包括临床数据、文献数据库、基因(蛋白质)数据库等结构化信息和半结构化信息数据源。信息抽取。从原始数据中经过自然语言处理(如 metamap)抽取出词串和术语组织成元数据库。局部映射。将元数据中的词串和术语匹配到各个局部本体中。全局映射。一方面,以 umls 全局本体为标准。将局部本体映射到全局本体解决局部本体问的语义异构性问题,满足彼此间相互查询的需求;另一方面,umls 提供了全局框架,将已匹配到局部本体中的元数据映射到 umls 概念中,满足对原始数据的语义标引需求。概念关系分析器。对数据管理、本体学习、语义检索和知识发现

16、的数据进行自然语言处理,对处理结果进行概念关系分析,分析后依据全局映射匹配到 umls 中的概念和语义关系,匹配后交由推理机和查询接口。查询接口。一方面,是为用户提供的统一语义查询界面,用户借此提交查询关键词,提出查询请求;另一方面,将经过概念关系分析的查询,提供给 umls 概念及概念间关系的可视化检索结果导航,再提供给用户。推理机。将经过概念关系分析的术语进行 umls 概念匹配并建立概念矩阵,以发现新的概念间关系和新知识,新的概念间关系用于本体进化,新知识将被写入知识库。5 医学数字资源语义互联的功能医学数字资源语义互联不仅仅致力于为医学工作者提供基于语义的检索,更重要的是为用户、数字资源和程序之间建立理解一致的信息交互结构。医学数字资源语义互联模式的构建为医学信息处理提供了可共享的平台,使得针对临床工作者、医学科研人员和医疗保险的数据之间具有了语义互通的可能性。基于此,其功能不仅限于智能检索,还包括自然语言处理、本体学习、专业知识发现等。5.1 自然语言处理自然语言处理(nlp)

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号