基于本体的Web信息组织

资源描述

《基于本体的Web信息组织》由会员分享，可在线阅读，更多相关《基于本体的Web信息组织（3页珍藏版）》请在金锄头文库上搜索。

1、计算机科学2 0 0 2 V o i 2 9 N 9 8 ( 增刊)基于本体的W e b 信息组织O n t o l o g y b a s e dW e bI n f o r m a t i o nO r g a n i z a t i o n刘宝良李建中张兆功 ( 哈尔滨1 - 业大学计算机科学与技术学院哈尔滨1 5 0 0 0 1 )A b s t r a c tT h ea p p e a r a n c eo fW e bh a sg r e a t l ya f f e c t e dp e o p l e Sl i f es t y l e ，b u th o wt ou t i

2、 l i z et h ei n f o r m a t i o no nt h eW e bi ss t i l lab i gp r o b l e m W ed e s c r i b eaO n t o l o g y b a s e dW e bi n f o r m a t i o no r g a n i z a t i o nm o d e l I nt h i sm o d e l ，W e bi sal o o s e l yc o u p l e dg r a p hw i t hi t sn o d e sp r e s e n t i n gc o n c e p t

3、s y s t e m T h ec o n c e p ts y s t e mi sat r e e l i k es t r u c t u r e ，t h en o d e so ft h ec o n c e p ts y s t e mr e p r e s e n tc o n c e p t sa n dt h ee d g e sr e p r e s e n tt h er e l a t i o n s h i p sb e t w e e nc o n c e p t s W et h e ng i v ean a i v ea p p r o a c ht oc a

4、 t e g o r yt h ee d g e sb e t w e e nW e bp a g e sf o rm a p p i n gi n f o r m a t i o nf r o mt h eW e bt ot h ec o n c e p ts y s t e m K e y w o r d sO n t o l o g y ，C o n c e p t ，C o n c e p ts y s t e m1 引言W e b 的出现极大地改变了个人或机构的生活及运作方式，W e b 已经成为一个信息的载体和传播的媒介。如何更好地利用W e b 上的有效信息，是政府、公司、机

5、构乃至个人都十分关心的问题。本文试图从本体的角度对W e b 建模，使得W e b 从一个杂乱无章的信息载体转变为一个可被有效利用的信息仓库。在我们的模型中，W e b 是一个巨大的信息源，在逻辑上包含许多不同的概念体系，例如：艺术、科学等。每个概念体系都是由许多相关联的概念组成。各个概念体系之间具有这样与那样的联系与交叉。例如：摄影是一种艺术，但是新的摄影器材的制造却属于科技的范畴。制作网页的过程中，包含了作者附加的很大的随意性，但是通常网页之间的组织安排是经过精心策划的，尤其是一些机构的网站。这些经过精心策划的网站结构本身，包含了好多可供利用的信息。这些信息不容易被形式化，但是它符合人

6、们对事物的认知过程，违反了它，人们就会觉得不可接受，例如：一个有关宠物的网站，其中必然包含狗的信息，如果一个网站，包含宠物种类很多，但是唯独没有狗，或是将有关狗的分类网页放到有关猫的分类目录下，或是将猎犬分类到猫的目录下，则用户就会觉得不可接受，因为这违背了人们的认知习惯或概念层次的约定。还可以通过概念之间的联系进行推理，例如：根据猫以老鼠( 当然还有别的) 为食，人们根据这种食物链关系推导出猫是老鼠的天敌这样的结论；现在已知老虎以兔子为食，也可以推导出老虎是兔子的天敌这样的结论。不难发现，我们可以简单地将概念从推导规则中去掉，得出“A 以B 为食一A 是B 的天敌”这样的结论。如果简单的

7、按如上规则推导，容易得出“小明以饼干为食一小明是饼干的天敌”这样的荒谬结论( 我们为什么会认为是荒谬的? ) ，说明这种推理需要满足一定的约束条件。这里的约束可能是“A 与B 都是动物”。如果我们在杂乱无章的W e b 信息源上，建立或局部建立这样的概念体系，则我们可以更有效地组织W e b 。如果用户提交查询，“找出老鼠的天敌的有关信息”，我们可以利用如上推理，返回有关“猫”的网页。实现如上的智能化查询，需要认清人们认知事物的本质。哲学上，本体论是研究人们认知事物是此非彼、研究事物间联系及这种联系满足的约束的理论 1 。它很好地为上例建模。计算机科学援用本体论的方法与观点来研究问题。并

8、在原有哲学含义的基础上进行引申 2 ，认为计算机科学中的本体是阐述形式词汇( f o r m a lv o c a b u l a r y ) 代表的主观意义的逻辑理论。要求按照预先规范好的意义对词汇、词汇之间的联系及联系必须满足的约束进行解释。N e c h e s c 3 首先在人工智能领域引入本体的概念。文 4 给出了本体层次的定义。文E 5 给出了本体在W e b 上的定义，它从知识获取的角度定义了本体。文 6 ，7 在文 2 的基础上，对分类关系从本体的角度做了分析。文 8 3 给出了一个原型系统O n t o S e e k ，采用本体的方法，基于内容对W e b 上的黄页进行查

9、询。文1 - 9 3* ) 本文研究得到了国家自然科学基金、国家9 7 3 计划( G 1 9 9 9 0 3 2 7 0 4 ) 、国家8 6 3 计期( 2 0 0 1 一从- 4 1 5 4 1 0 ) 、国家教委博士基金、黑龙江省科委项且和黑龙江省自然科学基金项目资助1 6 5 给出了一个基于本体的W e b 信息检索原型。这些文献中，有的从方法学的角度研究并挖掘了本体的概念在计算机科学中的内涵 2 7 ，有的9 3 从应用的角度给出了本体在计算机科学中的应用。基于本体 1 卫的概念体系有三个主要的组成部分。概念、概念之间的联系及联系必须满足的本体约束。这里我们说的概念是广义的，它

10、包括任何可被感知的实体，概念之间的联系是指实体之间的联系，本体约束是指实体之间具有联系所必需满足的条件。在本模型中，可以进行智能搜索，规则推导，数据挖掘等。本文的组织如下，第2 节介绍基于本体的W e b模型。第3 节介绍了W e b 到本体模型的映射，包括文本的映射及超链接的映射。最后总结全文。2 W e b 的本体建模文 11 利用本体论的方法为W e b 建模，它是一种集中式的模型。它的本体建立在庞大的唯一的词汇表之上。本文认为这种方法虽然在理论上可行，但在实际中却不可用。首先在庞大的词汇表上定义词汇之间的关联及关联之间的约束，需要大量的工作和复杂的计算。然而其中有相当多的关联是无

11、用的。有必要去掉这样的无用的计算。其次，W e b 上包含了各种各样的信息，有的信息本身就是垃圾。如果能够对W e b 上信息进行一次去粗存精，去伪存真的整理。那么一定是非常有意义的工作，但这非常难。最后从w e b 的构成来看，从单个网站来考察，绝大多数网站的组织是精心安排的，分类之间是有层次并且往往是比较精确的，并且大多数网站具有一个主题( 娱乐综合、新闻等) 。由于地域、机构等的不同，网络上出现许多具有相同主题的网站。这些具有相同主题的网站可以使用相同的概念体系建模。下面介绍利用本体建模时使用的基本术语：定义2 1 ( 概念，c o n c e p t ) 词汇表的子集，表达一

12、定含义。子集中的每个词汇都具有一个权值，该权值表示词汇在表达语义时的作用大小。定义2 2 ( 概念之间的联系，r e l a t i o nb e t w e e n c o n c e p t s ) 是一种作用，使得子集A 经过作用变为子集B 。变化体现在子集中词汇的个数及词汇权值的增加或减少。定义2 5 ( 概念体系，o n c e p ts y s t e m )概念的集合。概念之间表现出树状的层次关系。层次是指概念所表达语义上的包含、等同、从属等关系。定义2 4 ( 概念体系的交)概念体系之间具有相同的子集。该子集通过不同概念体系表达概念的不同方面。定义2 5 ( 交叉概念体系)如

13、果两个或多个概念体系，它们之间有交集并且交集非空，称它们为交】6 6 叉概念体系。定义2 。6 ( 概念体系之间的连接)概念体系之间通过超链接表现出相通的关系，但连接本身不具备含义。这样网络的结构就变为不同概念体系之间的连接。如果将每个概念体系抽象成一个点，则W e b 就变为一张松耦合的图，图上的边代表概念体系之间是可连通的。图上的边不携带任何语义信息。图中的点表示一个概念体系，它是一个树状结构，树的节点代表概念，树的边携带语义信息，代表概念之间的联系。5 W e b 到本体模型的映射5 1 概念的映射本文只考虑W e b 上的文本格式的网页( 以下称文本) 。W e b 又可以看作

14、是其中包含的文本及文本中包含的超链接组成的有向图。文本通过其所包含词汇表达具体的含义。我们利用传统信息检索中使用的向量空间表示法来表达文本。设d t = ( w i l w ，w t 。) 为一篇文本。n 是系统中包含的词汇总数。w i j 为词汇t j 的权值。权值w i j 的计算可以采用任何合理的方法，本文采用T F I D F 1 2 表示法，在这里文本中的词汇是指经过了词汇的预处理：停留词处理，分词处理，抽取词干处理。这样我们的问题变为给定一篇文本，给出它所对应的概念的分类问题。关于文本的分类问题有好多种实现方法。比如近邻分类、贝叶斯分类、决策树、神经网络、支持向量机等方法。还可

15、以在文本分类时考虑超链接的作用，有更多的超链接指向它的网页，说明它是一个比较权威的网页，在分类时可以给它优先考虑。在建立文本到概念之间的映射时可以利用现存的任何一种方法。 5 2 概念之间联系的映射对于从W e b 到概念之间联系的映射，可以有两种方法：利用概念在概念体系中所处的位置及由概念体系确定的联系建立文本所表达的概念之间的联系 1 。这种方法过分依赖预先建立的概念体系。不能从文本本身推导概念之间的联系。从建立网站的角度考虑，网站的作者在安排网页之间的层次关系及确定超链接连接的网页时，往往是根据网页所表达的含义。例如，对于医疗查询，可能包含对疾病的查询，就有一个对疾病的分芗，每一

16、个分类又包含若干子分类。这种分类基本上是标准的。超链接在这里的作用就是表达这种分类关系。本文根据这个特点。介绍一种超链接分类的方法。文本的向量空间表示将文本看作是向量的集合d i = ( w i l w i 2 ，w i k ) 。则文本d i 经过超链接l i i 指向链接d j = ( w j l w ”，W i k ) 。可以认为文本d i 经过超链接l i j 的作用变为d ，则超链接对于d t 的权值的变化起到的作用为瓯一( x l ，x 2 ，x k ) ，x k 一- - - W ，k w i k 。则将超链接的作用表示为酰。本文认为，超链接的这种表达概念之间的联系的作用在大量文本集合中，具有统计规律性。可以利用现有的机器学习方法根据它的作用不同进行分类或聚类。总结本文利用本体的方法为W e b 建模。在本模型中，W e b 由一系列表达某种概念体系的在地域上或组织上分布的网站或网页构成松耦合的图。本

展开阅读全文