《数据挖掘本体模型调研》由会员分享,可在线阅读,更多相关《数据挖掘本体模型调研(9页珍藏版)》请在金锄头文库上搜索。
1、数据挖掘中引入本体论的原因:数据挖掘(Data Mining, DM)技术一直是计算机工程领域的研究热点。由 于该领域知识的不断扩充和更新,我们在使用数据挖掘过程中也遇到了一些问题 比如:1、对于新出现的领域知识,无法实现知识自动定义及归类,而需要领域 专家的人工操作,造成定义及归类的人为差异等。 2、没有一个统一的数据挖掘 领域知识管理系统用于用户的知识检索。 3、当一个不具备很多领域知识的普通 用户提交一个数据挖掘任务时,可能得不到解决该挖掘任务的挖掘方法及算法的 最佳组合。本体概念演变:本体(Ontology)最早是一个哲学上的概念,从哲学的范畴来说,Ontology是 客观存在的一个系
2、统的解释或说明,关心的是客观现实的抽象本质。在人工智能 界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构 成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词 汇外延的规则的定义”。 1993 年, Gruber 给出了 Ontology 的一个最为流行的定 义,即“Ontology是概念模型的明确的规范说明”后来,Borst在此基础上,给 出了 Ontology的另外一种定义:“Ontology是共享概念模型的形式化规范说明” Studer等认为本体是共享概念模型的明确的形式化规范说明。本体的目标是捕获 相关领域的知识,提供对该领域
3、知识的共同理解,确定该领域内共同认可的词汇, 并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义领域本体(Domain On tology )是专业性的本体,提供了某个专业学科领域中概 念的词表以及概念间的关系,或在该领域里占主导地位的理论。数据挖掘与本体论结合研究的现状目前本体与数据挖掘的结合研究表现有以下三个大方面。一:本体学习,即 利用数据挖掘技术来构建各种不同分类的本体。二:领域本体用于知识发现,即 构建特定领域本体应用于不同领域的知识发现中。三:数据挖掘领域知识本体, 即基于本体论来构建数据挖掘的领域知识,从而进行知识发现。本体学习本体学习技术,其目标就是利用数
4、据挖掘技术(如:机器学习和统计等技术) 自动或半自动地从已有的数据资源中获取期望的本体。针对不同的数据类型,本 体学习技术分为 3 大类:基于结构化数据的本体学习技术、基于非结构化数据的 本体学习技术和基于半结构化数据的本体学习技术。 基于结构化数据的本体学习技术:结构化数据主要包括关系数据库或面向 对象数据库中的数据。关系型数据库采用的是关系模型 ,这种模型结构通常是用 二维关系表格形式来表示。在关系数据库中,关系模式是型,元组集(即关系)是 值。与关系模型相比,本体是一种具有更多语义、结构更为复杂的模型。所以, 这类本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映射到本体 中的相
5、应部分。 基于非结构化数据的本体学习技术:非结构化数据主要是针对没有固定结 构的数据(例如:纯文本文件)。由于缺乏一定的结构,要使机器自动地理解纯文 本并从中构建本体是一个困难的问题。要使机器能够自动地理解纯文本,并从中 抽取出所需要的知识,则必须利用自然语言处理(NLP)技术对其预处理,然后利 用统计、机器学习等手段从中获取知识。对于本体概念的获取,现有的方法可以分为 3 类:基于语言学的方法、基于 统计的方法和混合方法。对于本体概念间关系的获取,常用的方法有:基于模板的方法、基于概念聚 类的方法、基于关联规则的方法、基于词典的方法,或者这些方法的混和。 基于半结构化数据的本体学习技术:半结
6、构化数据即针对Web中的XML 格式和HTML格式的网页的数据源。由于这类数据是介于结构化和非结构化数据 之间的一类数据,所以基于上述两种数据类型的本体学习技术也可以应用到这类 数据源。应用领域本体用于知识发现在特定领域中构建不同的领域本体,主要是涉及特定领域的概念定义和概念 之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理等,从 而将其应用于领域知识发现中。目前开发和涉及的领域包括语义网、企业本体、 农业本体、医学本体、酶催化生物医学本体、陶瓷材料机械属性本体等。本体除定义关系外。还能定义属性的知识范畴,使子类能继承父类的属性。必须依靠本体(On tology)处理相同概念但
7、不同形式的同义关系。数据挖掘领域知识本体数据挖掘(Data Mi ning)是一个利用各种分析工具在海量数据中发现模型和数 据间关系的过程,并通过这些模型和关系可以用来做出预测。由于数据挖掘是研 究的热点,而数据挖掘领域知识又十分的繁杂,就产生利用本体的理论来构建数 据挖掘的领域知识,以协助数据挖掘工作者。国内外对这方面的研究还不是很成 熟。2002年,Bernstein等人提出了基于本体的方法来智能帮助数据挖掘过程。 通过本体对数据挖掘过程进行描述,如:数据预处理、数据挖掘算法应用阶段和 数据后处理。又对数据挖掘算法进行了描述,如算法的名称、前提、阈值、排斥 和最后效果等属性。并从准确性和速
8、度上给出了实验数据。 2003 年, Cannataro 等人提出了基于网格的环境下,构建数据挖掘领域本体用于知识发现的过程,在 具体解决一个数据挖掘问题时,在众多方法和算法中为领域专家提供一个合适的 参考模型。从数据挖掘的任务、方法、算法、软件等方面进行描述,并用 OWL 元语给出了具体的描述。最后还给出基于知识网格的数据挖掘本体的架构。国内的邢平平等人提出了一种基于本体的数据挖掘方法。首先,利用领域知 识或背景知识,可在高层次上进行数据挖掘,产生高层次或多层次的规则,甚至 是具有语义的规则,这些规则由高层次的抽象概念组成,系统能够自动进行数据 挖掘,利用本体进行数据预处理及后处理。李玉华等
9、人提出了在通用知识网格环 境下以用户为中心的数据挖掘本体的设计和 OWL 实现。邹力鹍等人提出了在数 据挖掘过程中构建数据挖掘本体,并给出了利用数据挖掘本体生成有效的 DM 过 程的算法伪码。本体论定义:本体论一词源自于哲学3,用于探讨“存在(being)”的一门学问,一般而 言,本体论常利用树状结构(图表 1)及关联的方式来表达人世间所有的事物, 并描述些事物之间的规则。生物功物植物人张三桃树图表 1 哲学中的本体在人工智能界,最早给出 Ontology 定义的是 Neches 等人,他们将 Ontology 定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构 成的规定这
10、些词汇外延的规则的定义” 1993年,Gruber给出了 Ontology的一 个最为流行的定义,即“Ontology是概念模型的明确的规范说明”后来,Borst 在此基础上,给出了 Ontology的另外一种定义:“Ontology是共享概念模型的形 式化规范说明”。 Studer 等对上述两个定义进行了深入的研究,认为 Ontology 是 共享概念模型的明 确的形式化规范说明。 这包含 4 层含义: 概念模型 (conceptualization)、明确(explicit)、形式化(formal)和共享(share)。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领
11、域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词 汇间相互关系的明确定义。Perez等人认为Ontology可以按分类法来组织,他归纳出Ontology包含5个 基本的建模元语(Modeling Primitive)o这些元语分别为:类(classes),关系(relations), 函数(functions),公理(axioms)和实例(instances)。通常也把 classes 写成 concepts。一般而言,本体论的构成要素有: Class、 Slot、 Instance、 Axiom。 Class 是人 类脑中的一个类别或称概念,如人、中国人、日本人、美国人
12、等都可称作 Class, 其中,中国人、日本人、美国人可为人的子类别,所以人在这个例子中可视为更 高层的概念。 Slot 在本体论中用来描述概念的属性或概念间的关联,如人必定有 身高或体重,或者人必定会有父母。其中,父类别与子类别之间的关联也可算是 一种Slot。Instanee称作实例,在本体论中是概念或类别的一个案例,实例将会 继承其类别的所有属性或关联,如:每个都是人的实例,且身高、体重都不相同。Axiom 于本体论中是原则或限制,其功能在于制定概念间关联或限制,其与 Slot不同之处在于,Slot清楚定义两个类别间的关联。Axiom是定义了 Slot无法 指出的关联,这种关联往往会横跨
13、多个类别,例如在人的类别中,会具备吃这个 关联,而人可以吃所有的动物,但人本身又是动物的子类别,所以在这个定义下, 人可以吃人,但若依照现行的道德习惯,人是不可以吃人,因此,即可利用 Axiom 定义人不可吃人。本体论功能一般而言,本体论的功能有提供词汇及提供储存知识实体。前者功能是因为 本体论具有阶层性架构,可用于描述概念间的相同概念或阶层性关系。本体论常 用来描述特定领域中的专有术语及其关系。另外,它具备可描述世间所有事物的 特性,因此,相对于Fuzzy、Neural Nets等算法,本体论于人工智能中扮演着 管理知识的角色,同时也可看成是利用结构化的模型来管理领域的知识。若从本体论应用的
14、角度来看,常用于沟通(commu ni eatio n)、交互运作(in teroperability)及软件工程(software engin eer in g)。沟通是透过本体使多个不同领 域的人或系统进行沟通,即是知识表达及知识分享。交互运作为本体论应用于整 合性系统,以使机器自动化地交换数据或信息,亦是知识分享。在软件工程方面, 它是将本体论应用于系统开发之中,以达到组件重用(reus ing)、提高可用性(reliability)的目的,亦是知识的重用。若从有应用本体论技术的领域来看,本体论常被应用到知识管理、电子商务 及EDI (Electric Data Interchange,
15、电子数据交换)三方面。本体论应用到知 识管理中,提供了知识编码、储存、维护及搜寻等的支持。在编码方面,本体论 利用 Framebased 或 Logic based 的语言针对知识加以描述。在储存及维护方面, 目前许多的 Ontology 工具皆提供知识库的维护。在搜寻方面,本体论可结合推 理机进行语意就本体论一般化的程度上来看,可将本体论分成五种大类。这五大 类的区分方式主要是透过本体论的一般化程度及功能来加以区分,领域本体论是 针对特定领域描述其知识的本体论。元资料本体论(如Dublin Core)是用来描述 事物属性的本体论。一般知识本体论是指描述人世间不具特定领域知识的本体论。 知识表
16、达本体论用来描述如何表达知识。方法或任务本体论是用来描述特定领域 的任务或处理方法的本体论,如常见的PSM。式查询,能够在适当时机了解使用 者描述的问句,并找出符合的答案。在电子商务方面的应用上,本体论常结合 Age nt技术成为In tellige nt Age nt,在B2B中提供中介的交易接口,在B2C中则提 供Shopbot的功能,以S.A.Mcllraith等人的研究为例,利用本体论所建立出来的 In tellige nt Age nt可以在众多的网站中找出符合使用者需要求的网站,并正确地帮 使用者执行任务,如下订单等。就本体论一般化的程度上来看,可将本体论分成下列五种大类,见图表 2。分类说明领域本体抽取特定领域知识康的产出.用以描述该领域的知识,(Domain Ontology)如医学“会计木休论等元资料本体用以提供描述在线资源的字旷,如图书馆常用的