语义web中的本体学习OntologyLearningfortheSemanticWeb

资源描述

《语义web中的本体学习OntologyLearningfortheSemanticWeb》由会员分享，可在线阅读，更多相关《语义web中的本体学习OntologyLearningfortheSemanticWeb（58页珍藏版）》请在金锄头文库上搜索。

1、语义web中的本体学习Ontology Learning for the Semantic Web报告人：李曼中国人民大学信息学院主要内容研究背景研究背景本体的学习本体的学习本体的评价本体的评价相关工作相关工作未来的研究方向未来的研究方向1.研究背景 BernersLee在2000的XML大会上正式提出了语义web。语义web是对当前web的扩展。语义web上的信息具有定义良好的含义，使得计算机之间以及人类能够更好的彼此合作。 1.研究背景语义web采用多层次的表示框架，本体位于从文档描述到知识推理转折的层次，具有重要的地位。本体的构建是实现语义web的关键环节。1.1 本体 Ontol

2、ogy是共享概念模型的明确的形式化规范说明。 “概念模型概念模型”：指Ontology是通过抽象出客观世界中一些现象的相关概念而得到的模型。 “明确明确”：指Ontology所使用的概念及概念的约束都有明确的定义。 “形式化形式化”：指Ontology是计算机可读的（即能被计算机处理）。 “共享共享”：指Ontology中体现的是共同认可的知识，反映的是相关领域中公认的概念集（即Ontology针对的是团体而非个体的共识）。 1.1 本体 Ontology的结构是一个五元组 O：= C, R, Hc,rel,AO C：概念； R：关系； Hc：概念层次，例如HC（C1，C2）； rel：概念间

3、的关系，例如，rel（R）（C1，C2）； AO：用某种逻辑语言表示的一组本体公理。C1是C2的子概念C1和C2具有关系R1.2 本体的应用本体的应用语义web 1.2 本体的应用本体的应用问题问题：XML在处理语义上存在两个问题在处理语义上存在两个问题同义词；一词多义解决解决：引入本体：引入本体本体通过对概念和概念间关系的严格定义来确定概念的精确含义，表示共同认可的、可共享的知识。对于本体来说，Author，Creator是同一个概念，而Doctor在大学和医院分别表示的是两个概念。因此，在语义web中，本体是解决语义层次上web信息共享和交换的基础。1.2 本体的应用本体的应

4、用自然语言理解全面的理解自然语言需要整合大量的知识源。以本体形式表示的领域知识是深入理解文本的基础。目前在基于本体的信息抽取方面已有一些研究成果。知识管理知识管理主要是处理一个组织中知识的获取、维护和访问。其中，本体可以用于对无结构信息进行语义标注，从而使得信息的整合和访问更容易。1.2 本体的应用本体的应用电子商务在电子商务中，交易的自动化要求对商品进行形式化描述，因此，需要一个标准化的词汇表本体。本体有助于对内容意义的精确、高效通信，同时促使系统的交互式操作、重用和共享等一系列的性能得以提高。1.2 本体的应用本体的应用从上述应用可以看出，这些应用领域的一个共同需求是共享某个领域内

5、的知识。而提供共享概念模型的明确的形式化规范说明正是本体的主要目标。所以，这些领域的许多难题都能够通过使用本体来解决。 1.3 本体的构建本体的构建手工手工：费时费力，容易出错全自动全自动：适用性不强半自动半自动：可行，其核心技术是本体的学习利用知识发现技术从数据源中获取知识2. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法2. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入

6、和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法2.1 2.1 本体学习周期本体学习周期（导入（导入/ /重用、抽取、修剪和精练）重用、抽取、修剪和精练）2.1 2.1 本体学习周期本体学习周期导入和重用阶段导入和重用阶段该阶段可以作为整个本体学习过程的开始。主要步骤：选择有关的本体，并定义导入策略。例如，定义一个本体包装器（wrapper），支持从一种本体描述语言转换为另一种语言。合并导入的概念结构，作为其它阶段的基础。2.1 2.1 本体学习周期本体学习周期抽取阶段抽取阶段利用导入的本体，抽取出新的知识。在这个阶段，本体学习技术部分依赖于给定的本体部分，所以

7、，当本体被修订过一次后又会引起新的抽取结果，这是一个反复增长的模型。2.1 2.1 本体学习周期本体学习周期修剪阶段修剪阶段本体结构的修剪可以使本体适应给定的应用。该阶段需要考虑两个方面：对本体中某个特殊部分的修剪将如何影响整个本体用户驱动保留或修剪本体元素的策略应用驱动2.1 2.1 本体学习周期本体学习周期精练阶段精练阶段利用给定的领域本体，以更细的粒度完善本体。精练和抽取具有类似的功能。原则上，同样的算法既可以用于抽取也可以用于精练。抽取主要用于整个本体（或至少是本体中非常有意义的部分）的建模，而精练是对目标本体的精细的调整。 2.1 2.1 本体学习周期本体学习周期上

8、述四个阶段都可以单独执行，且某些阶段可以被跳过。例如，导入一个本体，然后根据指定的应用程序数据直接修剪该本体。 2. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法2.2 2.2 本体学习框架本体学习框架（TEXT-TO-ONTO）2.2 2.2 本体学习框架本体学习框架输入数据源输入数据源本体，一种特殊的数据源。例如，词汇语义网络（WordNet，GermaNet），领域本体，词典（轻量级本体）。SchemaDababase Schema，例如关

9、系数据库模式Web Schema，例如DTD，XML-Schema2.2 2.2 本体学习框架本体学习框架输入数据源输入数据源实例，即数据库或知识库中的实例集合，它们是领域概念的外延描述。半结构化数据自然语言文本2.2 2.2 本体学习框架本体学习框架主要的组件主要的组件数据导入和处理组件数据导入和处理组件发现、导入、分析和转换有关的输入数据。产生一组预处理数据作为算法库组件的输入本体包装器本体合并器基于本体的文档爬虫器自然语言处理系统重要文档包装器将字典或一些半结构化文档转换为指定格式转换模块将自然语言处理后的文档转换为指定格式2.2 2.2 本体学习框架本体学习框架主要的组件主要的组件算法

10、库组件算法库组件提供许多本体抽取和本体维护算法。可以采用综合多策略学习结果的方法，即标准化各种学习算法的结果，然后综合它们。本体构建和管理环境本体构建和管理环境构建本体（手工）。提供图形界面，支持导出本体到标准的本体描述语言，如RDF，OWL等。本体学习可以看作是本体构建环境的一个插件。2.2 2.2 本体学习框架本体学习框架主要的组件主要的组件图形用户界面和管理组件图形用户界面和管理组件本体工程师使用该组件与本体学习组件交互。支持本体工程师选择相关的数据支持本体工程师选择参数和本体学习算法提供全面的结果集视图 2.2 2.2 本体学习框架本体学习框架总之，目标应用是衡量结果本体的尺度。因此

11、，实际的应用数据可以作为本体学习的输入数据。2. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法2.3 2.3 数据的导入和处理技术数据的导入和处理技术数据源数据源本体文档2.3 2.3 数据的导入和处理技术数据的导入和处理技术本体导入和处理的步骤本体导入和处理的步骤将已有的本体转换为本体学习框架可以处理的表示形式。若只有一个本体可供导入，则使用本体包装器本体包装器将已有的本体描述语言转换为本体学习框架可以识别形式；若给出了一个以上的本体，需要使用本

12、体合并算法本体合并算法（例如FCA-Merge）将给出的本体合并成一个共同的本体。 2.3 2.3 数据的导入和处理技术数据的导入和处理技术本体包装器本体包装器（例如：导入（例如：导入WordNetWordNet到到Text-to-OntoText-to-Onto中）中） WordNetWordNet中包含的本体原语中包含的本体原语SynSetSynSet：同义词集合同义词集合HypernymHypernym：上位词集上位词集HyponymHyponym：下位词集下位词集HolonymHolonym：整体词集整体词集MeronymMeronym：部分词集合部分词集合AntonymAnton

13、ym：反义词集合反义词集合例如，如果例如，如果X X是一种是一种Y Y，则则Y Y是是X X的上位词的上位词, , X X是是Y Y的下位词的下位词例如，如果例如，如果X X是是Y Y的一部分，则的一部分，则Y Y是是X X的整体词，的整体词，X X是是Y Y的部分词的部分词2.3 2.3 数据的导入和处理技术数据的导入和处理技术从从WordNetWordNet到到Text-to-OntoText-to-Onto本体结构本体结构O O的映射的映射WordNetWordNetOntology OOntology OSynSetC，LcHyperonym，HyponymHcMeronym，Holo

14、nymSAntonymS概念C的同义词集合存到L中，并映射到概念C上下位关系被直接映射到概念层次Hc整体词关系被映射到关系名“has-part”，部分词关系被映射到关系名“part-of”反义词被映射到关系名“opposite-of”2.3 2.3 数据的导入和处理技术数据的导入和处理技术本体合并算法（本体合并算法（FCA-MergeFCA-Merge）步骤步骤抽取概念的外延描述，计算两个形式上下文K1和K2。合并这两个形式上下文，然后生成一个概念格。基于概念格生成最终的合并过的本体。 2.3 2.3 数据的导入和处理技术数据的导入和处理技术2.3 2.3 数据的导入和处理技术数据的导入和处

15、理技术 FCA-Merge（第一步）：生成两个形式上下文。形式上下文是一个三元组K：（G，M，I），其中，G是一组对象的集合；M是一组属性的集合；I是G和M间的二元关系，即I GM，（g，m）I读作对象g具有属性m。 2.3 2.3 数据的导入和处理技术数据的导入和处理技术2.3 2.3 数据的导入和处理技术数据的导入和处理技术 FCA-Merge（第二步）：合并上一步生成的两个形式上下文，生成一个概念格。2.3 2.3 数据的导入和处理技术数据的导入和处理技术2.3 2.3 数据的导入和处理技术数据的导入和处理技术 FCA-Merge（第三步）：从概念格生成新本体2.3 2.3 数据的导入

16、和处理技术数据的导入和处理技术2.3 2.3 数据的导入和处理技术数据的导入和处理技术 FCA-Merge算法小结算法小结输入：两个本体和一个自然语言文档集输出：一个合并过的本体。对输入数据有如下要求：文档集应该和每个源本体都相关。文档集应该包含源本体中的所有概念。文档集应该能够很好的分离概念。2.3 2.3 数据的导入和处理技术数据的导入和处理技术文档的收集、导入和处理文档的收集、导入和处理步骤步骤使用一个以本体为中心的文档爬虫来搜集网上的相关文档。使用自然语言处理技术来进行文档的处理。使用一个文档包装器将半结构化文档（如领域字典）转换成本体学习框架可以识别的格式（如RDF格式）。将

17、处理过的文档转换为本体学习算法可以识别的格式。 2.3 2.3 数据的导入和处理技术数据的导入和处理技术总之，将数据转换为需要的格式是一个复杂的任务，该步骤处理的质量直接影响了下一步算法的生成结果。 2. 本体学习 2.1 2.1 本体学习周期本体学习周期 2.2 2.2 本体学习框架本体学习框架 2.3 2.3 数据的导入和处理技术数据的导入和处理技术 2.4 2.4 本体学习算法本体学习算法 2.4 2.4 本体学习算法本体学习算法本体抽取算法本体抽取算法词条的抽取：（1）计算词频（2）利用字典抽取词条分类关系的抽取：（1）使用层次聚类技术（2）使用模式匹配技术（字典）非分类关系

18、的抽取：使用基于关联规则的挖掘算法 2.4 2.4 本体学习算法本体学习算法本体维护算法本体维护算法本体的修剪（发现和删除无关的概念）(1)基线修剪(2)相对修剪本体的精练（对本体的精细调整和增量扩展）主要思想是先找出未知的词条，然后从本体中找出与其相似的概念并提交给用户，最后由用户决定该未知词条的意义。 3.本体的评价目前还没有评价标准。常用的评价方法常用的评价方法基于应用的评价，即通过使用本体的应用来评价本体本身。使用同一个标准对两个本体交叉比较，例如把利用各种学习方法自动生成的本体和手工生成的本体相比较。3.本体的评价比较两个本体的方法：比较两个本体的方法：精度（precision）和

19、召回率（recall）词汇级的比较概念级的比较 3.本体的评价精度precisionOL = 召回率recallOL = 其中，Ref是参照本体中元素的集合，Comp是比较本体中元素的集合。学习生成的本体手工生成的本体3.本体的评价词汇级的比较词汇级的比较该方法基于编辑距离编辑距离（edit distance）串相似度： SM(Li，Lj):max(0， ) 0,1 从一个串转换到另一个串所需要的最少操作步骤例如ed（“TopHotel”，“Top_Hotel”）=1 例如SM（“TopHotel”，“Top_Hotel”）=7/8返回1代表完全匹配，0代表不匹配3.本体的评价概念级的

20、比较概念级的比较分类关系的比较。综合考虑被比较概念的父子概念的相似度。非分类关系的比较。综合考虑被比较关系的domain和range的相似度。3.本体的评价未来的研究方向未来的研究方向面向应用的评价使用标准的数据集来评价主要困难是定义支持多语言的数据集4.相关工作（按照研究领域划分）（按照研究领域划分）自然语言处理领域该领域具有悠久的历史，它试图建立一个能够理解自然语言的系统。这类系统通常建立在大量领域知识的基础上。所以，该领域很早就开始研究如何半自动的建立领域知识，从而建立了一些针对语义知识的机器可读的字典。信息抽取也是自然语言处理的一个应用。4.相关工作数据库领域基于给定的数据库建立语义数据模型研究可供借鉴。同时，一些数据挖掘技术，如关联规则的发现等，也可用于抽取语义关系。机器学习领域在从各种数据中学习新知识方面，该领域具有很长的研究传统。4.相关工作信息检索领域从web文档中抽取领域知识的研究可供借鉴，尤其是对术语层次关系的聚簇研究。知识工程和知识获取领域该领域主要处理知识系统的建模。其半自动的知识获取的研究成果可供借鉴。5.5.未来的研究方向未来的研究方向支持多语言的处理从数据库、Web Schema和已有的实例中抽取本体结构多种学习策略的混合为抽取出来的非分类关系赋上语义多用户协同的本体开发

展开阅读全文

语义web中的本体学习OntologyLearningfortheSemanticWeb

最新文档