关联数据应用的体系框架及构建关联数据应用的建议

上传人:jiups****uk12 文档编号:90760492 上传时间:2019-06-16 格式:DOC 页数:22 大小:125.51KB
返回 下载 相关 举报
关联数据应用的体系框架及构建关联数据应用的建议_第1页
第1页 / 共22页
关联数据应用的体系框架及构建关联数据应用的建议_第2页
第2页 / 共22页
关联数据应用的体系框架及构建关联数据应用的建议_第3页
第3页 / 共22页
关联数据应用的体系框架及构建关联数据应用的建议_第4页
第4页 / 共22页
关联数据应用的体系框架及构建关联数据应用的建议_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《关联数据应用的体系框架及构建关联数据应用的建议》由会员分享,可在线阅读,更多相关《关联数据应用的体系框架及构建关联数据应用的建议(22页珍藏版)》请在金锄头文库上搜索。

1、关联数据应用的体系框架及构建关联数据应用的建议黄永文/岳笑/刘建华2012-9-25 9:31:19来源:现代图书情报技术(京)2011年9期【英文标题】On the System Framework and Some Suggestions for the Construction of Linked Data Applications【作者简介】黄永文,中国科学院国家科学图书馆,E-mail:,北京100190;岳笑,承德市第八中学,承德067000;刘建华,中国科学院国家科学图书馆,北京100190【内容提要】介绍关联数据应用的涵义、特点以及关联数据应用的分类,分析关联数据应用的体系架构

2、和需要解决的关键问题,提出实施关联数据应用时,需要重视数据之间的关联关系的利用和建立、结果的展现方式、查询效率、数据质量和有效性问题,最后给出图书馆开展关联数据应用的建议。The paper introduces the definition, characteristics and categories of linked data applications. After analyzing the key issues in linked data application architecture, it brings forward that we should pay attentio

3、n to the data linkage reuse and creation, query results representation, query processing performance, data quality and validation for a linked data application. Finally, it presents some suggestions for linked data applications in library.【关 键 词】关联数据应用/数据网络/图书馆应用Linked data application/Web of data/L

4、ibrary applications关联数据自2006年提出以后,受到了政府、新闻媒体、公司、学术界等领域的广泛关注。随着Web上关联数据的不断增加,越来越多的研究开始关注如何利用和消费关联数据,以及关联数据应用的体系框架和关键技术问题。本文所指的关联数据应用,其英文形式包括“Consuming Linked Data”、“Linked Data Applications”等。2010年11月在上海举办的ISWC2010会议,设立了COLD(Consuming Linked Data)工作组会议,专门讨论如何消费关联数据。在2011年10月的ISWC2011会议上,还将针对关联数据的消费和应

5、用进行专门的研讨。1、关联数据应用的涵义及特点Hausenblas1认为,可以从两个方面来理解关联数据应用。(1)在特定领域中的关联数据应用,如生物、统计、软件工程或多媒体等领域;(2)在关联数据基础上建立的Web应用。Sequeda2认为,关联数据应用是指利用Web上多个数据集合中的数据并且受益于数据集合之间的关联关系的软件系统。沈志宏等3认为:关联数据应用专指在不同领域和场景中消费和操作关联数据的应用。从以上定义可以看出,关联数据应用主要是利用关联数据源中的数据本身及数据之间的关联关系而构建的Web应用。关联数据应用一般具有如下特点2:(1)使用遵循关联数据原则发布的数据,对可访问的数据发

6、出请求、检索和处理;(2)根据不同数据来源之间的关联关系,可以发现更进一步的信息;(3)将关联数据与已有的数据(不一定是关联数据)结合在一起;(4)根据关联数据的创建原则,把融合后的数据再发布到Web上;(5)为最终用户提供增值服务。2、关联数据应用的分类关联数据应用可以分为两类:通用的关联数据应用和特定领域的关联数据应用4。因为关联数据是近几年才提出的,因此目前大多是第一代应用原型。不过,它们也显示了未来关联数据应用模式的一些特性。2.1通用的关联数据应用通用的关联数据应用可以处理来自任意主题领域的数据,目前通用关联数据应用主要有:关联数据浏览器和关联数据搜索引擎。(1)关联数据浏览器同传统

7、的支持用户通过文本超链接在HMTL网页之间导航和浏览的Web浏览器一样,关联数据浏览器支持用户通过RDF链接在数据源之间进行浏览。主要的关联数据浏览器有:Tabulator、Marble、Disco、LinkSailor等。(2)关联数据搜索引擎关联数据搜索引擎从多个数据源中整合数据,与依赖于固定数据来源的专有接口的Web 2.0 Mashup相比,有效地展示了开放的、基于标准的关联数据架构的优势。主要的关联数据搜索引擎有:Sindice、Falcons、SWSE、VisiNav、Swoogle等。另外,传统的搜索引擎Google不仅利用Web上的结构化数据来丰富检索结果,还开始利用抽取的数据

8、直接回答简单的实际问题,这充分显示了主要的搜索引擎已经开始向依靠Web上的结构化数据的“回答引擎”(Answering Engines)转变。2.2特定领域的关联数据应用特定领域的关联数据应用主要是针对特定需求而构建的,它们涵盖了特定用户群体的需求。根据2010年10月CKAN的统计数据5,LOD云图中共有207个数据集,涉及的领域主要有:政府、生命科学、新闻媒体、地理、用户产生等7大类。目前,特定领域的关联数据应用也主要集中在这些领域。(1)政府领域的应用关联数据的应用有助于增加政府的透明度,如Data. gov和Data.gov.uk网站以关联数据形式整合和可视化政府数据,为公众提供服务。

9、GovWILD6是哈索普拉特纳研究所和IBM Almaden研究实验室的一个合作项目,它以开放的政府数据为基础,集成了政治家、政党、政府机构、基金、公司和工业领导人等数据。这些相互关联的数据在Web界面上以可视化的方式显示,可以用来揭示隐藏的政府、企业和个人之间的连接,以及反映政治和工业网络中的潜在关系。(2)生命科学领域的应用目前,生命科学方面的关联数据较为丰富,相关的应用也相对多一些。例如,Linked Life Data7整合了UniProt、PubMed、Entrez Gene等20多个数据源,提供集成的检索和浏览服务。NCBO Resource Index应用8为了支持用户浏览生物医

10、药资源,利用了200多个现有本体中的知识。Diseasome Map应用9整合了不同生命科学的数据来源,生成“由已知的疾病和基因联系关联的疾病和疾病基因网络,能够说明许多疾病的常见遗传起源”。(3)教育领域的应用关联数据应用可以帮助教师创建和管理学习资源。例如,Talis Aspire10。通过Talis平台为每个资源、资源列表、作者和出版者分配URI,来存储、管理和访问关联数据。教师和学生通过方便的Web界面进行交互,他们创建的数据以RDF格式存储,使得Web上分散的相关的个人列表和资源被连接起来,丰富了支持教育过程的资料范围。(4)用户日常工作和生活中的应用这类关联数据应用的目的是把关联数

11、据带到用户的日常工作和生活中,例如DBpedia Mobile11、dayta. me12、Paggr13等。DBpedia Mobile是帮助旅游者了解城市的关联数据应用,dayta. me通过增强的在线日历向用户推荐即将推出的有关活动,Paggr提供个性化聚合Web数据的环境。(5)在社会书签工具和Wiki环境中使用关联数据Faviki14将DBpedia、Freebase等关联数据源作为背景知识按照主题来组织书签,能够有效地避免歧义。另外,在Shortipedia、Semantic MediaWiki等Wiki环境中也开始使用关联数据。3、关联数据应用的体系框架及关键问题3.1关联数据应

12、用的体系框架关联数据应用的一般实现流程是:(1)通过不同的方式访问LOD云图中的关联数据。(2)将获取的RDF数据进行映射解析、提取、合并等处理后,形成虚拟的或者是实际的RDF数据库,具体的应用服务可以通过RDF API或者SPARQL访问RDF数据。(3)数据提供者或数据消费者将经过增值的数据发布为关联数据。关联数据应用的体系框架主要由6部分组成,具体包括关联数据访问器、关联数据整合器、关联数据存储器、关联数据应用服务调度器、关联关系构建器和数据发布组件。具体框架如图1所示。图1关联数据应用的体系框架示意图15(1)关联数据访问器。主要是从数据Web中获取关联数据,可以从LOD云图中的数据源

13、中直接获取(RDF DUMP下载、SPARQL端点查询),或者通过关联数据搜索引擎进行获取。(2)关联数据整合器。主要进行数据抽取、清洗以及识别跨多个来源的同一实体,将数据转换到统一的结构中,形成增值的数据融合结果。主要功能包括:将不同来源的数据进行模式映射、关联数据的具体解析、关联关系的链接提取,以及同一实体数据的合并。(3)关联数据存储器。对于整合后的关联数据,主要以RDF格式保存,可以临时性缓存整合后的结果,或者采用一个永久性的存储设备来保存。RDF存储主要是对RDF数据进行管理。(4)关联数据应用服务调度器。在RDF数据的基础上,提供标准的访问和调用接口,如SPARQL端点查询、RDF

14、 API等,以便将整合和集成后的关联数据融合到具体的服务中。(5)关联关系构建器。数据提供者利用关联关系构建器,在自身数据之间建立关联关系,以及建立与LOD云图中其他数据源之间的关联关系。同时,还可以作为关联数据的消费者,利用现有的关联数据为自身数据增值。(6)数据发布组件。将应用所产生的新数据开放为关联数据,作为数据Web的一部分,重新发布到LOD云图中,以便为其他人共享。3.2关联数据应用要解决的关键问题(1)关联数据的查询与访问访问关联数据的基本方法是通过RDF描述中的HTTP URI,通过遍例RDF链接来发现其他的数据源。利用SPARQL端点、RDF DUMP数据集可以直接访问关联数据

15、,如ARC、Jena等都包含支持SPARQL查询的函数库,DARQ、SemaPlorer等支持SPARQL联邦查询。另外,通过关联数据搜索引擎也可以间接发现关联数据。访问关联数据方法的选择主要依赖于应用系统的实现架构模式。如果同时查询多个关联数据源,还需要解决联邦查询的效率问题。Haase等16分析了目前基于关联数据的联邦查询方法,以及不同设计方法的查询性能和可操作性,根据定义的联邦查询过程基准,通过实验分析了不同方法的优缺点。(2)不同关联数据源的词表映射不同的关联数据来源可能采用不同的RDF词表,为了尽可能理解Web数据,为用户提供整合的清晰的数据视图,关联数据应用需要将不同的术语转换成统一的目标模式。转换工作主要依据词表将数据映射成本地的数据模式,另外,还需要依据人工产生或者经过数据挖掘得到的映射规则进行转换。Google Refine支持人工创建映射规则,Open

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 其它中学文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号