基于本体的元数据应用基于本体的元数据应用 Ontology-based Metadata Application for Digital Libraries 刘炜 上海图书馆 200031 李大玲 南开大学国际商学院图书馆学系 300071 夏翠娟 华东师范大学信息学系 200062 摘要:摘要:本文简要分析了知识本体对于数字图书馆的作用、功能及其实现方式,论述了知识本 体概念的来源、 含义和目前的研究与应用进展, 以及知识本体与传统的图书分类法和叙词表 的关系; 着重阐述了知识本体对于元数据方案所起到的补充和高层互操作的作用, 以及建立 知识本体的一般流程和方法;介绍了各种知识本体语言和工具起源、特性和发展情况,并对 本体工具的性能和特性做了比较分析 Abstract: An ontology is a formal specification of a conceptualization, usually related to a specific domain of knowledge like library and information science. The metadata application profile along with the documentation of its abstract model can be thought of a primitive ontology of a specific implementation. Classification themes and thesaurus, which have been used for a long time in the library and information arena, are also a source of formal ontologies. After formalization processing and encoded with standard ontology languages, these kinds of concept systems can be very useful to establish a metadata service based on ontology services and fulfill the high level interoperability of digital libraries. And many languages and tools used to establish formal Ontology are introduced and comparatively analyzed in this paper. 作者简介:作者简介: 刘炜,上海图书馆数字图书馆研究所所长,研究员,从事数字图书馆、元数据、知识本体、 异构信息系统的互操作研究等。
著有《数字图书馆引论》一书,参与编写《DC 元数据》 Email: wliu@ 李大玲,南开大学国际商学院图书馆学系在读博士 夏翠娟,华东师范大学信息学系 2002 级硕士 知识本体(ontology)本来是哲学中的一个概念近年来,知识本体在人工智能领域引 起引起研究人员的兴趣,并越来越多的应用在万维网信息的表示、组织与管理上,一个重 要原因就是当前对基于网络的知识共享和知识交换存在巨大期望和需求随着各种已有的 和将要开发的 Web 应用的不断增多, 人们希望不同的系统能够共享某个共同公认的知识库 或者词汇(术语)集合,提供统一的领域模型,这样就极大地促进和实现了不同系统间的 数据或知识共享、交换和重用 数字图书馆作为一个分布异构环境中的知识体系,为知识的语义理解、计算机理解、计 算机和人进行交互提供了应用框架和实现途径 虽然知识本体在人工智能、 知识表示中已经 被广泛的讨论和实践, 但在我国图书馆情报界及数字图书馆研究领域中的研究仅仅局限在概 念的界定和初步的理论研究层面上,对于知识本体的方法论、编码语言、构建工具、具体构 建缺乏实践 本文在讨论知识本体在数字图书馆中的具体作用的基础上, 对知识本体的语言、 方法论、 构建工具进行介绍和分析, 希望能够为数字图书馆中知识本体的建设提供一个初步 的理论和实践的基础。
数字图书馆功能需求数字图书馆功能需求 解决分布式网络环境下系统或资源间的互操作问题是数字图书馆技术的核心内容 “异 构”是指系统或资源在结构上的不同,互操作是指系统或资源之间的兼容性或关联关系万 维网是目前最大的开放的分布式网络,可以看成由无数三层结构应用1组成的大型资源库群 (repositories) 这些资源库群是彻底异构的,从数据结构、操作系统,到数据库系统,到 应用系统;从命名方式,到数据格式,到结构模型,到用户界面,都有可能完全不同,目前 没有多少标准规范能够对这个各个层次的异构进行适当的约束, 数字图书馆在这个方面尚缺 乏完整解决方案,而且解决方案也不是唯一的从体系结构上来看, “语义万维网”和“Web 服务”技术正在形成一套异构系统互操作问题完整的解决方案 元数据提供了数字图书馆的语义基础, 使资源有了基本的微观结构, 但是元数据并不能 完全解决信息系统的语义异构问题, 包括资源采用不同元数据方案所造成的微观结构的异构 问题以及资源对象之间存在的复杂的关联关系,知识本体在某种程度上可以看成是“元”元 数据, 信息系统中不同实体对象可能采用不同的元数据方案, 不同的实体对象之间的关联关 系非常复杂, 知识本体能够对这些情况进行很好的描述, 从而为信息的组织、 管理以及检索、 查询提供模型和方法。
异构是普遍存在的, 元数据对于资源描述的特殊性和一般性的矛盾与生俱来, 是其本身 无法克服的或许随着标准化的进程,DC 元数据等少数元数据格式将占据主导地位,然而 永远不可能统一到仅有少数几种格式 许多专业或专门领域仍然会有大量的元数据方案, 这 些元数据方案可能局限于一个狭小的领域, 其本身就是一种领域本体, 但是只有专业的元数 据对于专业的应用才是最合适的, 与学科外其他领域的互操作性考虑是次要因素 在网络环 境下要联接这些“信息孤岛” ,必须有某种程度的互操作解决方案,而且最好是标准的解决 方案,这就需要在元数据之上再建立某些机制,来灵活地实现信息系统之间的互操作知识 本体的本质就是领域知识的共享和重用, 标准化和形式化的领域本体能够为信息系统之间的 高层互操作提供很好的工具 什么是知识本体什么是知识本体 知识本体(Ontology)被赋予了太多的含义,从抽象的哲学思辨,到实用的计算机推理 牛津英语辞典里对“Ontology”的解释是“对于存在的研究或科学(the science or study of being) ” ,人工智能领域经常引用 Gruber 在 1993 年的定义“概念体系的规范” (specification 1 三层结构应用指由“浏览器-Web 服务器-数据库服务器”组成的应用体系,俗称动态网页技术,相对于 将所有发布内容均以 html 文件形式存放于 Web 服务器的 B/S 两层结构而言。
of conceptualization)2,1998 年 Studer 等人在这个定义的基础上对于本体的特点给出了一个 较为明确的解释: “知识本体是对概念体系的明确的、形式化、可共享的规范说明” (见参考 文献) 直观地,我们可以把知识本体看成是“领域知识规范的抽象和描述,表达、共享、 重用知识的方法 ” 知识本体作为领域概念及概念之间关系的规范化描述,这种描述是规范的、明确的、形 式化的,共享的 “明确”意味着所采用概念的类型和它们应用的约束实行明确的定义 “形 式化” 指知识本体是计算机可读的(即能被计算机处理); “共享”反映知识本体应捕捉该领 域中一致公认的知识, 反映的是相关领域中公认的概念集, 即知识本体针对的是团体而非个 体的共识知识本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领 域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确 定义 如果把每一个知识领域抽象成一套概念体系, 再具体化为一个词表来表示, 包括每一个 词的明确定义、词与词之间的关系(例如“用” “代” “属” “分” “参”关系等)以及该领域 的一些公理性知识的陈述(例如“所有的期刊论文都是出版物” )等,并且能够在这个知识 领域的专家之间达成某种共识, 即能够共享这套词表, 所有这些就构成了该知识领域的一个 “知识本体” 。
最后, 为了便于计算机理解和处理, 需要用一定的编码语言 (例如 RDF/OWL) 明确表达上述体系(词表、词表关系、关系约束、公理、推理规则等) 在这个意义上,知 识本体已经成为一种提取、 理解和处理领域知识的工具, 可以被应用于任何具体的学科和专 业领域实际上图书馆领域很早就在进行类似的工作了,主题词表、分面分类的思想即是初 始的萌芽, 今天能够通过严格的形式化之后借助计算机的强大处理能力, 可以说对网络知识 的“整序”已经呈现出令人激动的曙光 对某个知识领域每个人的认识从内容到形式都可能是不一样的,通用的高层知识本体 (Common Ontologies)常常从哲学的认识论出发,其概念的根节点往往是时间、空间、事 件、状态、对象等抽象术语,而且不一定需要形式化;领域本体(Domain Ontologies)专注 于解决领域知识的抽象,较为具体,容易进行形式化和共享;术语本体(Terminology Ontologies)常常表现为一个词表,概念关系的抽取较为随意和简单,不严格要求,甚至可 以没有概念定义,例如著名的 WordNet 本体;形式本体(Formal Ontology)对于概念术语的 分类组织要求较为严格,需要按照一定的分析原则和标准,明确定义概念间的显性、隐性关 系,并明确各种约束、逻辑联系等,这类本体常常由术语本体发展而来,但却与术语本体没 有截然的界限;另外还有表现本体、任务本体、方法本体、混合型本体等等。
需要注意的是在图书馆界知识本体并不能简单地等同于传统图书情报领域的叙词表, 它 也不是一个孤立的技术, 从宏观上讲与元数据一样是数字图书馆的一个重要组成部分和重要 技术和工具,从微观上讲可以解决在一个系统中的它可以理解、表达为一组概念(如实体、 属性、过程)及其定义和相互关系知识本体一般包含某一领域的概念网络并通过一种“属 性- 值”机制来描述每个概念的关键特性该网络可以是有向的也可以是非有向的它也可 能是某一特定类型的网络,即一种概念层次(树) 概念之间的关系可通过附加逻辑语句加以描 述目前研究人员已经定义了不同领域的知识本体模型,并且有些知识本体模型已经投入了 实际应用,这些知识本体模型的描述方式、形式化程度、建模目标等都各不相同. 如上所述,某个具体领域的知识本体不可能是唯一的,形式化方式手段也可以不同,但 是不同的知识本体必须通过某种机制保证交换和映射的顺利进行, 形式化的方式也需要标准 化,这就是知识本体语言的作用 2 见:http://www-ksl.stanford.edu/kst/what-is-an-ontology.html (2004/4/24) 知识本体的作用知识本体的作用 知识本体的作用可以从两个角度来理解: 应用于所有领域知识规范化的一般作用和应用 于数字图书馆建立语义模型的特殊应用。
从一般领域应用的角度来理解, 知识本体主要有以 下作用: 在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解在人、机器(表现为软件代理)以及人与机器之间共享对于信息及结构的共同理解 这是知识本体开发最基本的一个目标采用术语和关系来编码领域假设举例说明,假 设几个不同的 web 站点。