语义化的知识资源发现方法探析（

资源描述

《语义化的知识资源发现方法探析（》由会员分享，可在线阅读，更多相关《语义化的知识资源发现方法探析（（7页珍藏版）》请在金锄头文库上搜索。

1、语义化的知识资源发现方法探析语义化的知识资源发现方法探析王思丽刘巍祝忠明姚晓娜张旺强李慧佳Analysis on Methods of Semantic Knowledge Resources DiscoveryWang Sili Liu Wei Zhu Zhongming Yao Xiaona Zhang Wangqiang Li Huijia 摘要摘要在对传统和语义化的知识资源发现方法进行对比分析的基础上，总结研究与深度剖析当前几种具有代表性的语义化的知识资源发现方法及其应用场景：基于语义聚焦爬虫的发现方法、基于领域本体的发现方法、基于 RDF 查询语言的发现方法和基于关

2、联数据的发现方法，并为后续构建语义化知识发现应用提供建议。关键词关键词知识资源;语义化;资源发现;关联数据分类号分类号 G250 Abstract：Based on contrastive analysis of traditional and semantic knowledge resources discovery methods, the paper depth summarizes and decomposes the several current representative semantic knowledge resources discovery methods a

3、nd their application: the discovery method based on semantic focused crawler, the discovery method based on domain ontology, the discovery method based on RDF query language and the discovery method based on linked data. Then, the paper puts forward some advices for building semantic knowledge resou

4、rce discovery application. Keywords：Knowledge resources ; Semantic; Resources discovery; Linked data 1引言引言随着互联网知识内容产出方式的不断变革，网络上存在的和用户所需求的数字知识资源越来越广泛化综合化，类型和格式也日益复杂化多样化，为数字图书馆知识资源发现和建设服务带来了新的难题。与此同时，语义网技术的快速发展，为实现计算机自动发现和处理网络上异构的来自不同数据源的数据提供了便利，因而也推动了传统知识资源发现方法与语义网相关理论技术的融合，形成了一系列语义化的知识资源发现方法。

5、本文在对传统的知识资源发现方法和语义化的知识资源发现方法进行对比分析的基础上，对国内外当前几种具有代表性的语义化的知识资源发现方法和应用场景进行了深度剖析，并提出了构建语义化知识资源发现应用的建议，旨在为进一步的研究和实践奠定基础。2 2 理论基础理论基础 2.12.1 语义化语义化语义化（Semantic），是伴随语义网的概念而出现的。百度百科对其的首要定义是“指用合理 HTML 标记以及其特有的属性去格式化文档内容” 。维基百科对其的定义是“前端开发里面的一个专用术语” 。W3CSHCOOL 教程里更将其简单归结为“让机器可以读懂内容” 。个人觉得百度百科的定义过于狭义，维基

6、百科的定义过于笼统，W3CSHCOOL 的定义倒是通俗易解。上述定义虽然表面上各有说辞，但在内涵上却是一致的，我们可以将其分解为 2 个方面去理解：其一，是在技术开发层面上，语义化是一种基于语义网相关标记的数据处理技术，其二，在结果需求层面上，语义化处理的结果应当是机器可按照一定的规则自动去理解和分析内容的结构化数据或信息。可见，语义化在本质上与语义网的终极目标“机器可读”是一致的，它应当是语义网的技术代名词。目前，XML、RDF（资源描述框架）、 Ontology（本体）被公认为实现语义化的三大底层核心技术要素。本文所研究的语义化的知识资源发现方法正是指基于上述技术或者说融合了上

7、述技术要素的，针对互联网上开放本文系中国科学院国家科学图书馆兰州分馆业务领域前瞻项目“知识资源语义化组织、技术集成与开放服务的趋势扫描”(项目编号：1500013004)和中国科学院国家科学图书馆青年人才领域前沿项目“开放知识资源集成关联数据的方法及应用研究” （项目编号：Y300231001）的研究成果之一。学术知识资源进行发现和获取的方法和技术。 2.22.2 传统传统 VSVS 语义化语义化传统的知识资源发现方法与语义化的知识资源发现方法相比，存在一定的联系和区别，主要表现在以下几个方面。为方便论述，下文将其分别简称为传统 KRD 和语义化 KRD(Knowledge Resour

8、ce Discovery)。（1）应用场景有所不同。传统 KRD 主要应用在基于文献的关系数据库和以 HTML 为主的 web1.0 和 web2.0 中。语义化 KRD 主要应用在以 RDF 和 Ontology 为主的 web3.0 中或融合了一定语义标记的 web2.0 中或二者混合的综合开放互联的关联数据网络中。（2）技术方法有所不同。传统 KRD 依赖于数据挖掘的相关算法，如文本分类、聚类、联机分析处理、神经网络、图形可视化等。虽然人工智能的方法加入后，智能化的程度有所提高，但在对实现机器自动处理自然语言方面仍没有特别大的改善，比较依赖于人工干预和配置。语义化 KRD 源

9、自于传统 KRD，但又注入了语义网相关的新技术和理论方法，人机交互的智能化程度有所提高，并能够支持一定的自动语义问答和推理。（3）发现理念有所不同。由于过去缺乏资源，因此传统 KRD 更注重于获取和存储资源，追求某一领域资源的多和全，如通用的搜索引擎技术和聚焦爬虫技术。而现在由于“信息爆炸” ，语义化 KRD 更注重于资源的访问、处理和组织分析，并保留资源的来源信息，追求的是知识资源的权威性、开放性、可关联性，宁可少而精。 3 3 语义化的知识资源发现方法语义化的知识资源发现方法 3.13.1 基于语义聚焦爬虫的的知识资源发现方法基于语义聚焦爬虫的的知识资源发现方法关于聚焦爬虫的概

10、念和利用聚焦爬虫去发现和获取互联网上与我们需求的某一特定主题内容相关的知识资源的具体技术，相关理论已经很成熟，这里就不再赘述。需要说明的是语义聚焦爬虫与传统聚焦爬虫在技术上的关联关系。语义聚焦爬虫与传统聚焦爬虫一样，都需要解决 2 个关键问题，其一是对知识资源发现目标的定义和描述，其二是对知识资源发现策略的分析与制定。传统聚焦爬虫在解决这 2 个关键问题时，一般采用的方法是，以用户提交或科研人员事先遴选好的 URL 作为种子样本来决定爬行的起点，从而达到对爬虫为发现新目标页面 URL 而进行漫游的深度的控制和引导。同时采用传统的深度优先、广度优先和启发式搜索策略等对提取到的 UR

11、L 列表进行链接排序和下载。最后存储和索引的的对象一般为原数据源的网页以及网页的标题等。整个过程是不涉及语义分析的，最终获取到的数据和相关的元数据也是不含任何语义关联信息的，因而对涵盖了复杂语义关系的语义网和期望获取到更为丰富的语义关联信息的用户需求来说并不适用。基于语义聚焦爬虫的知识资源发现方法，针对语义网知识资源的特殊性，在解决上述问题时增加了页面语义标注和分析功能。对根据种子样本而初步获取到的资源进行分析和分类，从语义化的网页或文件格式中如 RDF 文件、OWL 文件、XTM 文件、XML 文件、嵌入相关语义标记如 RDFa、Microdata 的 HTML 和 XHTML

12、文件中提取和分离出语义标注信息。常采用的方法是编写自定义的解析程序或者采用语义分离器 RDF API 等1。对非语义化标注的网页文档，则通过一些自动化语义标注软件或人工辅助标注方式补充语义信息，完成对页面的语义标注。最终根据语义标注信息，或作为后续进行知识发现的目标的补充和参考，或生成一些实例和索引信息存入数据库，以实现对获取到相关实体数据和元数据的语义注释和完善，或二者兼而有之，可根据实际的应用需求去确定。 3.23.2 基于领域本体的知识资源发现方法基于领域本体的知识资源发现方法领域本体提供了对其所在领域相关知识的标准性的描述，一开始就使用了能够为计算机可理解的数学算法进行

13、表达，使得与其相关的网络信息组织是建立在语义信息而不是语法信息的基础上，因而大大满足了语义网对自动化的知识资源发现的需求。基于领域本体的知识资源发现方法源自于基于本体的信息检索技术，与基于语义聚焦爬虫的知识资源发现方法有异曲同工之处，都是通过一定的策略只发现和获取与目标主题领域相关的资源信息。不同之处是，基于领域本体的方法更为复杂，为了提高资源发现的准确率，增加了领域本体库的支持，因而也增加了多道处理工序。主要表现有：其一，在页面语义标注和分析环节，并不仅仅是对当前页面进行语义分析，而是结合领域本体库的知识对页面进行扩展解析，因而得到的主题评估信息可能比一般方法更精确和完备，从而影

14、响后续的链接访问策略。其二，在完成页面解析后，能够把得到的相关语义标注信息重新返回给领域本体库，由领域本体库进行基于三元组的拆解和保存，从而达到扩展和丰富现有本体库的目的。其三，在资源存储和索引环节，利用本体映射技术对本体库中新增的异构本体进行本体和实体的映射，同时利用实体融合技术对映射结果库中相同或相似的实体进行实体融合或实体关联，然后将最终形成的实体关系和数据交给索引分析模块进行处理，从而形成索引库以进行存储和索引。此外，在面向用户或第三方的资源发现服务系统中，一般的都是提供基于简单关键词或专业检索式的查询服务，从而利用 SQL 语法在服务器数据库中进行结构化查询。而基于

15、领域本体的发现系统，在底层技术实现上，可以利用领域本体相关背景知识，将上述查询转换成基于描述逻辑的联合查询方法，将查询词或检索式映射和转换成本体库中的实体及关系，使用本体库中的概念和属性公式去搜索本体以实现更为灵活的查询，从而让机器去自动发现更多不在预料之中但有价值的资源信息。而用户也无需理解后台隐含的语义数据结构或去学习复杂的查询语言。 3.33.3 基于基于 RDFRDF 查询语言的知识资源发现方法查询语言的知识资源发现方法在数据结构上，语义网主要采用“资源-属性-值”的 RDF 三元组形式去描述网络知识源。一个 RDF 三元组又可以表示为一个 RDF 有向图。因此，对于计算机

16、来说，一个有效的语义网资源站点可以被定义为一个或多个 RDF 有向图组成的集合。因而基于 RDF 的查询，能够借助于 RDF 数据模型和语义网自身的优势，对查询需求进行明确语义和强结构化的表达，从而查询到精确满足特定目标需求的数据，而返回的查询结果仍然是一个 RDF 三元组的集合，有利于进一步的语义关联和语义挖掘。目前，国际上代表性的 RDF 查询语言主要包括 SPARQL、RQL、RDQL、SeRQL、N3、TRIPLE、Versa 等。其中 SPARQL 是 W3C 的推荐标准，既是一门查询语言又是一种数据获取协议，已经得到了广泛的应用和支持，而且有大量可用的公共端点。这种“端点”是一种处理程序，它能够接收和处理 SPARQL 查询的服务，而且根据查询形式的不同可以返回不同格式的资源结果。如 DBpedia 的 SPARQL 查询端点2，在网络上可公开访问，并且支持人机交互查询。一般情况下，用户可以在 DBpedia 提供的 OpenLink Virtuoso SPAR

展开阅读全文