web数据到rdf数据的框架实现

资源描述

《web数据到rdf数据的框架实现》由会员分享，可在线阅读，更多相关《web数据到rdf数据的框架实现（8页珍藏版）》请在金锄头文库上搜索。

1、Web 数据到 RDF 数据的框架实现陈涛张永娟陈恒中国科学院上海生命科学信息中心摘要：【目的】构建 Web 数据到 RDF 数据(W2R)转换框架,实现 Web 数据的 RDF 结构化。【方法】采用 W2R 词表构建转换框架的底层结构,并根据设计的系统本体和 Web页面元素组成映射文件进行数据的 RDF 结构化,同时采用 Virtuoso 数据库进行数据存储。【结果】通过对映射文件的灵活配置,在不修改任何程序代码的基础上,实现 Web 数据的 RDF 结构化、不同数据源之间数据的整合以及 RDF 数据的Named Graph 存储及推理。【局限】系统的本体结构以期刊和文献结构为

2、主,尚不支持其他知识领域。此外,针对 RDF 数据的持久化存储,W2R 框架目前仅支持Virtuoso 数据库。【结论】W2R 框架实现 Web 数据的 RDF 结构化,为语义网络和关联数据的应用提供标准化数据。关键词：本体; 语义网络; 数据采集; W2R; 作者简介：陈涛,ORCID:0000-0002-6609-4914,E-mail:。收稿日期：2014-08-06基金：上海市哲学社会科学规划课题青年项目“关联数据的复用与整合在图书馆知识服务体系中的应用模型构建”(项目编号:2011ETQ001)的研究成果之一Implementation of the Framework for C

3、onverting Web-data to RDF(W2R)Chen Tao Zhang Yongjuan Chen Heng Shanghai Information Center for Life Sciences, Chinese Academy of Sciences; Abstract： Objective The article aims at building W2 R framework for converting Web data to RDF format. Methods Build the bottom infrastructure of the framework

4、with W2 R vocabulary, and convert Web data to RDF format with mapping file which is consisted of system Ontology and Web page elements extracted in XPath syntax. Furthermore, use Virtuoso database as the persistent storage of RDF data. Results With the W2 R framework, it is convenient for converting

5、 Web data to RDF format, merging data in different resources, storing them in named graphs and implementing simple inferences without changing any source code. Limitations The system Ontology is made up of public namespaces that describe the bibliographies currently. RDF data is only stored in Virtu

6、oso database. Conclusions Through the W2 R framework, this paper provides a new way of generating the standardized RDF data for semantic network and linked data applications.Keyword： Ontology; Semantic network; Data acquisition; Web data to RDF data; Received： 2014-08-061 引言互联网上存在着大量非结构化数据和采用不同标准的结

7、构化数据, 关联数据是一种简单的语义网实现技术, 可以将多种数据开放并连接在一起, 允许用户发现、关联、描述并再利用各种数据, 它使互联网迈出了向语义网(Semantic Web)进化的重要一步。近年来, 越来越多的机构、组织及政府部门都对外开放其数据, 并与其他机构发布的数据关联, 实现跨数据库的数据交换, 范围涉及多媒体、文献出版、生命科学、地理信息等。美国、英国、巴西、新西兰等国家也逐渐将政府信息(涵盖卫生、农业、税务、教育等方面)发布成可重用的关联数据。因此, “文档的网络(the Web of Document)”向“数据的网络(the Web of Data)”转变, 已经是大势所

8、趋1。RDF(Resource Description Framework)为 Web 资源描述提供了一种通用框架, 即通过“资源属性值”的三元组形式描述 Web 上的各种资源。它以一种机器可理解的方式被表示出来, 提供了 Web 数据集成的元数据解决方案, 可以很方便地进行数据交换。相对于其他数据形式, RDF 数据具有易控制、易扩展、易综合以及高包容性和可交换性等特点。通过 RDF 的帮助, Web 可以实现一系列应用, 如可以更有效地发现资源, 提供个性化服务, 分级与过滤 Web 的内容, 建立信任机制, 实现智能浏览和语义 Web 等2-4。目前, 将关系型数据库中的数据转为 RDF

9、数据, 即 RDB2RDF 的研究较多, 主要有 D2R (http:/d2rq. org/d2r-server)、R2RML (http:/www.w3.org/TR/r2rml)。实现方法主要是通过映射文件(Mapping File),将关系型数据库中的表和字段依据相互之间的关系映射成 RDF 三元组数据5-6。RDB2RDF 的映射方式主要适用于企业和机构进行内部数据的 RDF 转换, 但是在制定映射文件时, 必须获取数据库的访问权限, 并对数据结构具有相当程度的了解。而对于 Web 数据转换, 一般不太可能获取其数据结构以及访问权限, 因此 RDB2RDF 不太适合 Web 数据的

10、RDF 结构化。当然, 也存在一些将 Web 数据转为 RDF 数据的方法, 如: Apache Marmotta LDClient (http:/marmotta.apache. org)和 Apache Any23 (http:/any23.apache.org)。这些方法主要以提供 API 为主, 需要用户从逻辑层的角度自行转换 Web 数据, 不仅要求使用者具有一定的编程能力, 而且还需要熟悉语义网络及关联数据的相关技术, 使用门槛较高。本文则从应用层的角度出发, 试图对 Web 数据的转换机制进行封装, 使用者只需通过简单的模板设置就可以实现对 Web 数据的 RDF 结构化。2 系

11、统框架设计2.1 W2R 转换框架目前流行的关联数据和语义网络开源框架主要有 Jena (http:/jena.apache.org)和 Sesame (http:/www.penrdf. org), 本文提出的 W2R 转换框架后台采用 Jena 框架, 可以集成到 Java 应用中, 作为数据转换接口实现 Web 数据的 RDF 结构化7-9。转换框架设计如图 1 所示:图 1 W2R 转换框架下载原图具体转换流程如下:(1) 通过 Get 或者 Post 方法从网络页面(Web Page)中获取 HTML 源文件。(2) 制定系统本体, 根据 Web 页面元素从本体中抽取相应属性构成抓

12、取模板, 即 TTL 文件。(3) 数据转换方面采用自行研发的 W2R 转换引擎。该引擎根据 TTL 映射模板, 从 HTML 源文件中抽取所需字段信息, 并将信息转换为 RDF 三元组格式进行持久化存储。(4) 数据的持久化存储采用 Triple Store 数据库, 这里选用 Virtuoso 数据库(http:/ 该数据库不仅支持 RDF 数据管理, 同时还针对 RDF 数据提供 SPARQL 访问节点。2.2 本体知识属性的扩展类似于 RDB2RDF, Web 数据的 RDF 结构化同样需要映射文件, W2R 框架的映射文件主要由系统结构本体中的相关属性组成。本文的系统结构本体如图 2

13、所示, 主要涉及 4 个类: 期刊(Journal)、文献(Article)、作者(Author)以及组织机构(Organization), 当然也可以扩展到其他类, 如基金类、主题词类等。项目设计本体时, 主要是在采用已有的开放词表的基础上, 扩展一些私有词表, 这里采用的开放本体词表主要有 dct (dcterms)、foaf、wgs84_post、bibo 等。而 cba 词表则为扩展的私有词表, 这些词表的属性暂称为知识属性, 用于描述不同对象间的知识结构。系统结构本体在设计时, 建议尽可能采用开放本体词表, 这样可以方便不同系统之间数据的共享、关联与复用。对于私有词表, 可以通过

14、owl:same As 建立与其他开放本体词表属性的连接关系, 实现与其他系统之间数据的关联。图 2 系统本体设计下载原图2.3 系统结构属性的设计系统的结构本体除了定义的知识属性外, 还包括一些用于系统框架的底层结构, 即结构属性。这些结构属性, 主要是以 W2R 词表为主的底层词表。(1) w2r:graph, 目标 Graph(图), 用来进行 Named Graph 的数据存储。从页面转换后的数据将被存储到定义的 Graph 中, 每个模板至少有一个 Graph。例如: w2r:graph bibo:Journal, 表示将抓取的数据存储到 Journal Graph 中。(2) w

15、2r:target, 指向页面中目标采集区域。(3) w2r:mode, 抓取模式, 与 w2r:target 结合使用, 表明在哪个目标域中进行模式抓取, 这里的模式分为 solo(单例)和 repeat(循环)。其中, solo 为单例抓取, 主要用于单个文献、单个期刊信息的抓取; repeat 为循环采集, 主要用于某个期刊中所有文献列表的抓取。(4) w2r:merge, 用于信息合并、增量采集, 可以定义多个合并因子。例如: w2r:merge“%ISSN%,%TITLE%”, 表示根据期刊“ISSN 号”和“标题”这两个因子进行不同数据源之间文献信息的合并。(5) w2r:refe

16、r, 指定引用对象, 获取对象的主语。例如: w2r:refer“%dcterms:title%”, 表示根据标题获取资源主语。与 w2r:merge 区别在于 , w2r:refer 仅获取资源主语, 而 w2r:merge 获取主语后, 还与资源中的信息进行合并操作。(6) w2r:uni Pattern, 用于定义主语生成规则。当该属性为空时, 则为空节点BNode, RDF 数据在实际使用过程中, 尽量避免使用空节点, 空节点只能内部识别, 不能用于数据之间的关联。例如: w2r:uni Pattern“%uuid%”, 表示生成的主语采用 UUID 唯一码进行标识。(7) w2r:rules, 用于定义推理规则, 与 w2r:graph 结合使用, 表明在哪个Graph 中应用推理规则。例如: w2r:rules“%rule2%

展开阅读全文

web数据到rdf数据的框架实现

最新文档