知识图谱构建方法研究教学教材

资源描述

《知识图谱构建方法研究教学教材》由会员分享，可在线阅读，更多相关《知识图谱构建方法研究教学教材（6页珍藏版）》请在金锄头文库上搜索。

1、基于多数据源的知识图谱构建方法研究摘要：针对多数据源的融合应用，构建了基于多数据源的知识图谱。首先，对不同领域内的数据源构建相应本体库，并将不同本体库通过数据融合映射到全局本体库，然后，利用实体对齐和实体链接方法进行知识获取和融合，最后，搭建知识图谱应用平台，提供查询和统计等操作。在实体对齐方面，利用传统的基于相似性传播实体对齐方法，获得良好的实体对齐效果；在实体链接方面，提出了基于约束嵌入转换的预测推理方法，实验结果表明，在预测准确率上取得较好的结果。0 引言在大数据时代背景下，随着海量数据的出现以及多数据源融合交叉应用，传统的数据管理模式以及查询方式受到一定的制约。近年来，知识图谱（Kno

2、wledge Graph）1作为一种新的知识表示方法和数据管理模式，在自然语言处理、问题回答、信息检索等领域有着重要的应用。知识图谱是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系；其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成网状的知识结构2。随着谷歌知识图谱的发布，知识图谱的构建与应用研究引起了学术界和工业界的广泛关注。在国内，知识图谱的构建与研究已经起步，相应取得许多重要的研究成果。如：搜狗的知立方、百度知心；复旦大学GDM实验室设计了一种面向图书阅读领域的中文知识图谱3；金贵阳等4利用知识图谱和语义网技术，提出构

3、建企业知识图谱的方法，并应用于钢铁企业信息集成，提高了企业信息查询的效率；胡芳槐5在博士论文中研究了基于多数据源的中文知识图谱构建方法，涉及到本体层构建、实体层的学习等，同时构建行业领域知识图谱的应用平台；王巍巍等6构建了双语影视知识图谱，包括影视本体库的构建、实体的链接、实体匹配等，并搭建了应用平台与开放数据访问接口；鄂世嘉等7提出了一种端到端基于中文百科数据的中文知识图谱自动化构建方案，并开发面向用户的中文知识图谱系统。现有的行业领域知识图谱通常采用手工构建方式，缺乏统一的构建方法，且这类知识库目标是特定行业领域，因此，其描述范围极为有限。针对这些问题，提出了将不同领域知识库进行融合成一个

4、知识图谱，旨在构建语义一致、结构一致的多数据融合知识图谱，实现对不同领域内的知识进行查询和展示，从而提高了数据查询效率。本文提出一个多数据源融合的知识图谱构建流程，并对关键技术进行研究，包括数据源的获取、领域本体库的构建、全局本体库的构建、实体对齐、实体链接以及应用平台的搭建。文中利用某地区的医院医疗保健数据、空气污染监测数据和环境监测数据，构建了多数据融合的知识图谱。1 知识图谱构建过程知识图谱构建是知识图谱得以应用发展的前提，涉及实体抽取和实体及实体之间关系的建立，同时还需要很好地组织和存储抽取的实体与关系信息，使其能够被迅速的访问和操作8。知识图谱构建过程通常可以分成两步：知识图谱本体层

5、构建和实体层的学习5。本体层构建通常包含术语抽取、同义词抽取、概念抽取、分类关系抽取、公理和规则学习；实体层学习则包含实体学习、实体数据填充、实体对齐和实体链接等。知识图谱的构建方法通常有自顶向下和自底向上两种2。所谓自顶向下的方法是指先构建知识图谱的本体，即从行业领域、百科类网站及其它等高质量的数据源中，提取本体和模式信息，添加到知识库中；而自底向上的方法是指从实体层开始，借助于一定的技术手段，对实体进行归纳组织、实体对齐和实体链接等，并提取出具有较高置信度的新模式，经人工审核后，加入到知识图谱中。然而，在实际的构建过程中，并不是两种方法孤立单独进行着，而是两种方法交替结合的过程。本文在构建

6、多数据源的知识图谱时采用两种方法的结合，首先采用自顶向下的方式来构建本体库，然后采用自底向上的方式进行提取知识来扩展知识图谱。图1 多数据融合的知识图谱构建过程Fig.1 Knowledge graph based data fusion model本文基于多种数据源的融合技术，构建相应的知识图谱，具体过程如图1所示。图1中是从多种不同的数据源，如各个领域中的结构化、半结构化和非结构化数据，构建相应的领域本体库，然后将它们映射为全局本体库，接着对这些领域知识图谱通过知识获取和数据融合构造知识图谱，最后通过搭建相应的应用平台，方便对知识图谱进行查询与更新。2 多数据源融合的知识图谱构建为了能充分

7、利用不同领域内的知识，实现不同领域内数据快速查询，本文在融合多种数据源的情况下，构建了多数据源的知识图谱。首先对不同领域内构建不同领域的本体库，然后将不同领域的本体经过映射成全局本体库，接着对各个领域的知识库进行实体对齐和实体链接，丰富和拓展所构造多数据融合的知识图谱。2.1数据源用于构建知识图谱的本体库数据源可以来源于结构化数据、半结构化数据和非结构化数据，以及现有的一些通用知识图谱库等。本文用于构建本体库的数据源如表1所示。1）结构化数据。其主要是指关系数据库中的表、excel表以及其它具有结构的数据。2）半结构化数据。其主要指介于结构化数据和无结构化数据之间，通常的XML、HTML等相关

8、网页属于半结构化数据。半结构化数据主要来源于维基百科、百度百科等。3）无结构化数据。其主要指纯文本资料、图像和声音等数据。2.2本体库构建本体（ontology）是对概念进行建模的规范，是描述客观世界的抽象模型，以形式化方式对概念及其之间的联系给出明确的定义2。本体定义了知识图谱中的数据模式，因而，本体构建研究的成果能在很大程度上辅助知识图谱的构建5。针对不同的应用领域和不同的需求，本体构建的方法也有所不同。本文利用OWL（Web Ontology Language）从多种数据源中构建相应的领域本体库，然后通过映射成全局本体库。1）领域本体库构建本文领域本体库构建其主要数据源是来自于环境监测数

9、据库、空气污染检测数据库和医疗健保数据库。除此之外，也利用相关领域的网站数据等。下面重点介绍从关系数据库中获取领域本体库的过程，如图2所示。首先，领域内的关系数据库是针对特定领域而创建的，该数据库包含了领域内的表达方法和具体应用的详细信息，因此，可以从领域的关系数据库中抽取出关系模式，分析关系数据库中表的信息和字段信息，建立相应的概念模型。其次，由于关系模式包括表与字段之间的关系，以及表与表之间的联系，而本体库则是包括概念与概念之间的关系、概念与属性间的联系。因此，要利用一定的规则将关系模式映射为本体模型。本文设计了一系列转换规则，如：将关系模式中的表名转换为本体中的概念名；表与表间的关系转换

10、为本体中的概念与概念的关系；将关系模式中的字段名转换为本体的属性名等。通过上述的转换规则，可以获得领域本体模型。最后，对领域本体模型进行评估和校验。该部分重点是对所构造的领域本体模型进行检验，查看是否满足本体库的构建原则，本体模型中的术语是否正确，本体模型中的概念及其关系是否完整等。通过对本体模型评估后，可以建立领域内的本体库。关系数据库可具有完整的数据模式，包含完整的表结构和完整性约束条件。因此可以将数据库中的关系名转换为本体中的概念，部分字段名转换为本体中的属性，示例如下：将字段名转换为属性名的OWL语言：.将关系名转换为本体概念的OWL语言：.另外，为了扩充和完善领域本体库，需要对非关系

11、型的数据进行采集和填充。本文对行业领域内的半结构化数据进行结构化处理，对相应百科网站通过网页爬虫技术获取相应的知识，并将半结构化数据转换成结构化数据，最后利用上述关系数据转换成本体的规则进行转换。2）全局本体库构建为了能便于构建多数据融合的知识图谱，需要将多个领域内的本体库进行融合，构建全局本体库。其过程如图3所示。在上述构建的领域本体库基础上，通过相似性检测和冲突解决等规则，将多个领域的本体库融合在一起组成了全局本体库。其步骤如下：首先，由于不同领域内的本体库进行知识融合，对存在着一些相同或相似的概念和属性等，采用了相似性检测规则对这些不同领域内的本体进行检测。如：语义相似性检测、概念相似性

12、检测、属性相似性检测、数据格式相似性检测等。通过这些相似性检测后，能将不同领域内的相同或相似本体进行统一，但并不能解决它们之间的冲突。图2 从关系数据中构造领域本体库过程Fig.2 The structure of ontology construction from relational database图3 全局本体库构建过程Fig.3 The process of global ontology construction 其次，采用冲突解决规则对上面存在着相似概念或属性等进行解决。通过冲突解决规则可以消除概念的歧义，剔除冗余和错误概念，从而保证全局本体库的质量。主要是对上述中存在着相近或

13、相似的概念或属性进行消除，使其达到统一，并合并为全局本体。最后，将剩余的领域本体经过冲突解决和实体消岐等处理，映射到全局本体库，与上面经过处理后各个领域本体库相结合，从而实现全局本体的构建。2.3实体对齐实体对齐（entity alignment）9也称为实体匹配或实体解析，是判断相同或不同数据集中的2个实体是否指向真实世界同一对象的过程。实体对齐目的是：发现在不同知识库中具有不同实体名称，但却代表着现实世界中同一事物的实体，将这些实体进行合并，且用具有唯一标识对该实体进行标识，最后将该实体添加到相应的知识图谱中。针对不同知识库的实体对齐过程如图4所示9。即在给定不同的知识库，通过先验对齐数据

14、以及调整参数和相关外部资料的作用下，进行实体匹配的算法计算，最终得到实体间的对齐结果。虽然在构建全局本体库时，针对不同领域内本体库的实体做了实体消岐处理，然而，这里的实体对齐是为了丰富和拓展知识图谱，从现有的通用知识图谱及其相关的资料中，利用实体对齐方法，提取实体及实体间的关系来填充知识图谱。现阶段有关实体对齐的算法较多9, 10，常用的有：基于传统概率模型的实体对齐方法、基于机器学习的实体对齐方法、基于相似性传播实体对齐方法、基于LDA模型的实体对齐方法、基于CRF模型的实体对齐方法、基于Markov逻辑网的实体对齐方法等。图4 不同知识库实体对齐过程Fig.4 Process of entity alignment of different knowledge bases 本文采用基于相似性传播实体对齐方法9-11，该算法将实体对齐问题看成是一个全局匹配评分目标函数的优化问题进行建模，属于二元分类问题，可通过贪婪优化算法求得其近似解10。基本过程如下：（1）对于开放链接数据及行业领域的百科数据中实体，进行提取得到了实体的同义名称集合；（2）通过实体对齐的方法，将这些实体与上述构建的知识图谱中的实体进行匹配，把结果作为实体合并的候选实体集；（3）将这些候选实体集中的实体，通过比对它们的

展开阅读全文