基于领域本体的

上传人:j****9 文档编号:54127387 上传时间:2018-09-08 格式:PPT 页数:80 大小:554KB
返回 下载 相关 举报
基于领域本体的_第1页
第1页 / 共80页
基于领域本体的_第2页
第2页 / 共80页
基于领域本体的_第3页
第3页 / 共80页
基于领域本体的_第4页
第4页 / 共80页
基于领域本体的_第5页
第5页 / 共80页
点击查看更多>>
资源描述

《基于领域本体的》由会员分享,可在线阅读,更多相关《基于领域本体的(80页珍藏版)》请在金锄头文库上搜索。

1、,基于领域本体的 互联网信息资源管理,杜小勇中国人民大学信息学院 教育部数据工程与知识工程重点实验室,2008年4月19日,目录,历史上关于数据库发展的讨论 驱动数据库发展的主要因素 面向个人计算领域的下一代数据库技术,历史上关于数据库发展的争论,上个世纪70年代,关于关系数据库系统的争论 性能不如层次网状系统 层次网状数据库已经在银行等机构中广泛应用 IBM E.F.Codd等人的SYSTEM R, UC Berkeley Stonebraker 等人的 Ingres。 关系数据库的简单易用性打动了用户,最终全面取代层次网状系统,历史上关于数据库发展的争论,上个世纪80年代,关于面向对象数据

2、库的争论 面向对象程序设计语言的成功(simula67, smalltalk-80,modula-2,C+)的方法对计算机各领域产生深远影响 关系数据库和高级程序语言之间存在不匹配 围绕如何改进关系数据库,展开了关于下一代数据库的讨论,历史上关于数据库发展的争论,面向对象数据库与对象关系数据库两个阵营 1990,The Object-Oriented Database System Manifesto (Wisconsin大学David DeWitt等) 1989, The Next Generation Database System Manifesto 由于关系数据库在市场上的巨大成功,最

3、终对象关系数据库逐渐成为主流,历史上关于数据库发展的争论,20世纪前后,关于XML数据库的争论,认为XML数据将成为未来的主要数据源,因此,如何管理数据成为数据库技术研究的一个重要方向: 面向对象数据库的方法 关系数据库扩展的方法 XML数据库的方法,关于数据库发展的研讨会,1988,Laguna Beach, California 1990,Palo Alto, California 1995,Palo Alto, California 1996,Cambridge,Massachusetts 1998,Asilomar, California 2003,Lowell,Massachuset

4、ts,这样的讨论在一些主流的数据库会议的特邀报告上也可见到,SIGMOD2004 PARIS, Jim Gray认为,数据库的重要挑战是如何按照”FIRST CITIZEN”对待非结构化的复杂数据,特别是,他提到,工作流已经成为支撑应用开发不可缺少的重要概念,因此,数据库支持队列数据类型是非常重要的. ICDE2005, Tokyo, Stonebreaker认为,传统数据库的”one size fit all”的缺陷逐渐显露,下一代数据库将是更为丰富多彩的世界.,目录,历史上关于数据库发展的讨论 驱动数据库发展的主要因素 面向个人计算领域的下一代数据库技术,数据库研究的驱动因素,驱动数据库发

5、展的主要因素有: 新的硬件和体系结构(系统设计参数变了) 新的应用领域(需求变了) 新的数据类型(对象变了),硬件特性,数据库研究的驱动因素,硬件/系统特性: 更大的内存 更大规模的集群,硬件特性,数据库研究的驱动因素,应用领域: 事务处理应用 决策分析应用 信息检索应用新应用? 数据大集中 互联网应用,硬件特性,数据库研究的驱动因素,数据类型: 结构化数据 正文数据 多媒体数据 流数据 程序新数据 非结构化数据,硬件特性,What is Next Generation Databases? Revisit,从计算机应用领域的变化谈起,“计算”机时代,主要的成就 冯.诺依曼的计算机结构非常适宜

6、计算型任务 算法复杂性理论 。挑战的问题 精度(满足超高精度计算要求) 速度(算法研究/大计算量下的性能/瓶颈在CPU),“数据处理”机时代,主要的成就: 关系模型(关系结构/封闭世界假说/关系数据理论) 事务理论(ACID特性/并发控制/恢复机制) 挑战的问题: 正确性 (多用户环境下确保计算的正确性) 性能(大数据量下的性能/瓶颈在IO),“知识管理”机时代,“个人计算”的应用特征是什么? 对数据管理的挑战和要求是什么?,个人计算应用领域特征,如同科学计算/企业计算等一样,关于个人计算这个说法,并没有清晰的定义. 用个人计算这个词想刻画这样一些特征: 以个人工作为中心,而不是以企业业务为中

7、心 以为用户提供信息获取手段为主,而不是以完成企业业务为主 以信息关联为难点,而不是以满足应用约束为难点,应用的特征,第一代:计算(computation) 高精度 高速度 第二代:交易(transaction) 正确性 安全性 第三代:交流(communication) 智能化 关联,再谈“交流”型应用,交流是媒体的主要功能。 互联网是第五媒体。互联网已经成为人们生活和工作不可缺少的工具和环境。而且,各种媒体大有合一的趋势。 交流型应用中,85%以上的是非结构化的数据(文件、电子邮件、图片等),因此,管理非结构化数据将成为主要的挑战。,再谈“交流”型应用,What You Get is Wh

8、at You Need (WYGWYN),Semantic Web,Recommender Search engine Filtering,annotation,extraction,user,Resource side,User side,“交易” vs “交流”(1),支持“交易”应用的主要计算概念是“transaction”: 事务是一组在语义上不可分割的操作序列。计算机系统必须保证事务的ACID性质。 支持“交流”应用的主要计算概念是什么? “association”:对象之间具有数量特征的语义联系。 性质?,“交易” vs “交流”(2),支持“交易”应用的数据模型是关系模型:一组关

9、系数据结构+一个描述型的代数/演算语言。 支持“交流”应用的数据模型是什么? 知识模型:SW。 XML+RDF+ontology,rdf,XML,ontology,特别强调,面向个人计算的数据库 个人用数据库 面向个人计算的数据库一定是基于互联网的、开放的,更像是互联网的一种基础设施,支撑个人用户更好地学习和工作。 用那些关键词可以刻划个人计算应用? 搜索?(search) 办公?(office) 智能?(intelligence) 关联?(association),目录,历史上关于数据库发展的讨论 驱动数据库发展的主要因素 面向个人计算领域的数据库技术 (基于领域本体的互联网信息资源管理),

10、面向个人计算的数据库,数据模型 语义网模型(基于本体的知识组织体系) 业务模型 概念搜索服务,目录,历史上关于数据库发展的讨论 驱动数据库发展的主要因素 面向个人计算领域的数据库技术 语义网构建技术 语义搜索引擎,关键技术,语义网,2000年由WWW的发明者Tim Berners-Lee在XML会议上提出Semantic Web的概念,并在2001年5月科学美国人上发表了同名文章。其基本的思路是让计算机程序(agent)能够理解网上信息的语义。,语义网,我们认为:语义网是一种知识组织的形式,在领域本体的支撑下,将各种资源进行定位和组织,因此,是互联网从无序走向有序的重要步骤。,语义网研究,领域

11、本体开发 基于本体的资源标注 本体库管理系统 基于上下文的信息检索系统,1 领域本体开发,本体的概念本体描述语言本体开发方法论本体开发的挑战,本体的概念,在人工智能界,最早给出Ontology定义的是Neches等人: 给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义 后来在信息系统、知识系统等领域,越来越多的人研究Ontology,并给出了许多不同的定义。其中最著名的定义是由Gruber于1993年给出的: 本体是概念化的一个明确的规格说明 An ontology is an explicit specification of a concept

12、ualization,本体的概念,Fensel对本体的定义进行分析后认为Ontology的概念包括四个主要方面: 概念化(conceptualization):客观世界的抽象模型; 明确(explicit):概念及它们之间联系都被精确定义; 形式化(formal):精确的数学描述; 共享(share):本体中反映的知识是其使用者共同认可的。,本体的本质属性,边界的模糊性: 详尽性(描述范围的广度) 专业性(描述层次的深度) 应用的依存性: 本体的粒度大小取决于应用的需求 随时间进化 形式化 这充分表明:本体的建设是十分困难的,本体的描述语言,为了能够清晰的、形式化的描述概念,本体的描述语言应该

13、满足以下要求: 良好定义的语法(a well-defined syntax) 良好定义的语义(a well-defined semantics) 有效的推理支持(efficient reasoning support) 充分的表达能力(sufficient expressive power) 表达的方便性(convenience of expression),本体的描述语言,自上个世纪90年代以来,一些基于AI的本体实现语言被提出,如KIF、Ontolingua、CycL、Loom,OCML,Flogic。 后来,随着Internet的发展,又出现了一系列基于WEB的本体语言,也叫作本体标记语

14、言,如SHOE、XOL、RDF、RDF-S、OIL、OILDAML、OWL。,本体的描述语言发展,本体的描述语言OWL,OWL(Web Ontology Language) W3C推荐的语义网中本体描述语言的标准。 是从描述语言DAML+OIL发展起来的,作为RDF(S)的扩展,目的是提供更多的元语以支持更加丰富的语义表达,并更好的支持推理。 针对不同的需求,OWL有三个子语言:OWL Lite、OWL DL和OWL Full。,本体建设方法论,本体建设应该采用工程化生产。 工程思想的核心有两点: 标准化的表达方式 规范化的工作步骤 目前本体工程这个思路已经被大家所接受,并结合项目提出了一些方

15、法。,本体建设方法论回顾,IDEF-5方法 骨架法(Skeletal Methodology) 企业建模法 METHONTOLOGY 循环获取法,领域本体建设方法论,方法论原型进化协同开发 进化的理论依据是:文献老化理论协同开发的依据是:本体不是一个专家的知识,而是领域专家的一种共识,方法论研究,突出本体的边界模糊属性,采用middle-out的建设过程。 突出本体的应用属性,强调需求分析阶段的重要性。 突出本体的进化属性,采用多用户协同开发方式。 突出过程的规范化,文档化工作贯串领域本体建设的各阶段。,挑战:本体进化,为什么要进化?进化的评价标准是什么? 什么叫“好” 什么叫“够”?进化手段

16、: 领域概念的自动抽取 概念间关系的自动获取 老化概念/关系的删除如何将本体进化算法逐步整合到现有的本体开发工具中,挑战:本体评价,做到容易做好难,而知道什么是“好”更难。 目前的一些评价标准: 基于应用的方法:根据具体应用的结果来评价本体进化的结果。基于“golden standard”的方法:使用现有的一些手工制作的词典/词表等作为“golden standard”,将概念/关系抽取结果与其相比。基于专家评价的方法:邀请一组领域专家对概念/关系抽取的结果进行人工的评价。,挑战:本体标注,标注就是将文献资源和本体进行关联 本体标注的问题可以归结为分类的问题但是这些类之间形成了一个复杂的网状关系,语义网研究,领域本体开发 基于本体的资源标注 本体库管理系统 基于上下文的信息检索系统,目前的语义标注工具,目前的标注技术主要考虑的是普通文档数据,对于数据库数据的标注考虑的很少,目前还没有看到这方面的报道。语义Web研究组织网站上列举了一些目前为止有代表性的基于本体的语义标注工具:SHOE Knowledge Annotator、Semantic Markup Plug-in for Internet Explorer、Semantic Word、Annotea、Melita、GATE、OntoMat Annotizer、SMORE等。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号