Semanticweb与Semanticwebservices.ppt

上传人:s9****2 文档编号:575749230 上传时间:2024-08-18 格式:PPT 页数:79 大小:912.50KB
返回 下载 相关 举报
Semanticweb与Semanticwebservices.ppt_第1页
第1页 / 共79页
Semanticweb与Semanticwebservices.ppt_第2页
第2页 / 共79页
Semanticweb与Semanticwebservices.ppt_第3页
第3页 / 共79页
Semanticweb与Semanticwebservices.ppt_第4页
第4页 / 共79页
Semanticweb与Semanticwebservices.ppt_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《Semanticweb与Semanticwebservices.ppt》由会员分享,可在线阅读,更多相关《Semanticweb与Semanticwebservices.ppt(79页珍藏版)》请在金锄头文库上搜索。

1、Semantic web 与 Semantic web services电信学院 黄广君Semantic web语义web的产生语义web技术基础主要研究方法开发步骤与工具应用系统1 语义web的产生1.1 语义web的起源1.2 语义web的理论基础1.3 语义web的目标1.1 语义web的起源 2001年Tim Bernas Lee发表论文提出新一代Internet技术。机器识别和处理1.1.1 搜索引擎工作原理 基于关键词,语法层次,词频位置扇入值1.1.2 现有改进方法 提供交互式界面,逐步求精。采用目录或基于反馈信息。效率较低1.1 语义web的起源(续)1.1.3 引入语义分析技

2、术 基于本体,对用户的查询请求语句或词组做语义分析,进行必要的扩展和形式化处理。 利用了语句中的语法结构信息和上下文语境信息,并使用逻辑推理技术,提高了查全率和查准率。 1.2 语义web的理论基础(学科)计算语言学:自然语言处理技术概率统计模型:利用语境信息和经验值排歧人工智能技术:知识挖掘、智能推理1.3 语义web的目标目标目标:将面向人的网页、文档、知识转化为 机器可以识别和处理的数据,从而提高查询效果。原理原理:将搜索引擎的处理层面由语法层提高 到语义层。2 语义web技术基础(开发)本体理论与本体论技术(关键技术)描述逻辑:逻辑推理同义词词典:扩展语料库:标注了的语句或文档集合训练

3、集与测试集:用于构建统计模型的大型文档集合。2.1 本体理论与本体论技术2.1.1 本体定义 本体O由一个4元组构成:O=D, A, R, F。 D为实体描述符集,它可以是一个客观实体 对象,也可以是一个本体; A是描述D的属性集; R是描述D中各个实体之间相互关联的函数集; F是关于O的一组公理或语义规则。一个简单本体实例Ontology ExampleConcept conceptual entity of the domain Property attribte describing a conceptRelation relationship between concepts or p

4、roperties Axiom coherency description between Concepts / Properties / Relations via logical expressionsPersonStudentProfessorLectureisA hierarchy (taxonomy)nameemailmatr.-nr.researchfieldtopiclecturenr.attendsholdsholds(Professor, Lecture) =Lecture.topic = Professor.researchField2.1.2 本体结构 全局本体O1O2O

5、3O1创建领域本体的步骤3 主要研究方法基于语言学理论的理想主义方法:基于规 则,从本质上探索语言模型和内部联系。在一些简单实例中精确度很高,但对于大规模应用效率很低。基于统计模型的经验主义方法:基于概率经验值和上下文信息,推断语义。实用性强。实际应用中上述两种方法相结合。3.1 基于规则的语义分析方法切词:主要对汉语。英语主要是去停用词。词性标注:分析单词之间的语法关系。短语划分:最关键任务。浅层句法/语义分析:语义角色标注深层句法/语义分析:语义层次结构基于句块的分析:局部分析主谓短语主谓短语ZW ZW 述宾短语述宾短语SBSB述补短语述补短语PC PC 定中短语定中短语DZDZ状中短语状

6、中短语ZZ ZZ 量词短语量词短语MPMP方位短语方位短语SP SP 介词短语介词短语PPPP的字短语的字短语DE DE 联合短语联合短语LHLH兼语短语兼语短语JU JU 同位短语同位短语TWTW比况短语比况短语BP BP 所字短语所字短语SUSU连谓短语连谓短语LW LW 语法模板语法模板1515种短语结构定义种短语结构定义查询模型模块介绍语义依存图例语义依存图例 句子:今年他的毕业论文被河南科技大学学报刊登。 语义依存树刊登今年论文被毕业的学报他河南大学科技 句子相似度算法流程句子相似度算法流程3.2 基于统计模型的研究方法最大熵模型隐马尔科夫模型粗糙集理论人工神经网络技术基于统计模型的

7、研究方法最大熵模型:隐马尔科夫模型:一个隐马尔可夫模型 (HMM) 是一个五元组:(X , O, A, B, )其中:X = q1,.qN:状态的有限集合,O = v1,.,vM:观察值的有限集合,A = aijaij = p(Xt+1 = qj |Xt = qi):转移概率,B = bik,bik = p(Ot = vk | Xt = qi):输出概率 = i, i = p(X1 = qi):初始状态分布粗糙集理论: 粗糙集可以通过粗糙隶属函数 来定义,其中 不可分辨 关系R下元素x属于集合X的程度。人工神经网络技术基于描述逻辑的知识推理3.3 当前研究热点自动本体生成技术:人工、半自动、自

8、动 基于WordNet的最长匹配算法短语识别中的语义排歧:统计模型、语境 准确度与算法效率排序策略与算法 语义相似度计算:向量余弦值。向量空 间、潜在语义分析。2 描述逻辑的体系结构描述逻辑的体系结构一个描述逻辑系统包含四个基本组成部分:1)表示概念和关系(Role)的构造集2)Tbox(Terminology box)描述领域结构的公理集,包含概念定义及公理;3)Abox(Assertional box)具体个体的公理集,包含概念断言和关系断言。4)Tbox和Abox上的推理机制。 一个基于DL的知识库就是K=Tbox+Abox,简写为,KB(T,A).1 1)DLDL的基本元素的基本元素概

9、念和关系概念和关系 概念概念 解释为一个领域的子集 例子:所有在校学习的人员的集合构成“学生”概念又如:孩子,已婚的,哺乳动物等概念 x | Student(x) ,x | Married(x) 关系关系(Roles) 属性(二元谓词,关系)例子:朋友,爱人, | Friend(x,y) , | Loves(x,y) 知知识识库库TBox(模式模式)Man Human MaleHappy-father Human Has-child.Female Abox(数据数据)John: Happy-father : Has-child推理系统推理系统接口接口2 2)TBoxTBox语言语言是描述领域结

10、构的公理的集合定义定义: 引入概念的名称 A C, A CFather Man has-child.HumanHuman Animal Biped包含包含:声明包含关系的公理C D ( C D C D ,D C) has-degree.Masters has-degree.Bachelors一个解释I满足: C D iff CI = DIC D iff CI DI一个解释I满足:TBox T iff 它满足T中的每个公理(IT)TBox实例实例 概念概念 表示实体(一元谓词,类) 例子:学生,已婚的 x | Student(x) ,x | Married(x) Bird Animal, Man

11、 Human 关系关系(Roles) 属性(二元谓词,关系) 例子:朋友,爱人 | Friend(x,y) , | Loves(x,y) 一个解释I满足: a : C iff aI CI :R iff RI一个解释I满足ABox A iff 它满足A中的每个公理记为: I A一个解释I满足知识库 = iff 它满足T和A 记为: I 4 4)语法和语义)语法和语义构造算子构造算子语法语法语义语义例子例子原子概念AAI IHuman原子关系RRI I Ihas-child对概念C,D和关系(role)R合取合取C DCI DIHuman Male析取C DCI DIDoctor Lawyer非

12、CI C Male存在量词 R.Cx| y. RIy CI has-child.Male全称量词 R.Cx| y. RI y CI has-child.Doctor3 3 DL DL中的构造算子中的构造算子一般地,描述逻辑依据提供的构造算子,在简单的概念和关系上构造出复杂的概念和关系。通常DL至少包含以下算子: 合取( ),吸取( ),非( ) 量词约束:存在量词( ),全称量词()最基本的DL称之为ALC例如,ALC中概念Happy-father定义为:Man has-child.Male has-child.Female has-child.(Doctor Lawyer)DLDL中的其它算

13、子中的其它算子构造算子构造算子数量约束逆传递闭包语法语法语义语义例子例子n R . Cx| | y| RI ,y CI | n3 has-child .Male n R . Cx| | y| RI ,y CI | n 3 has-child .MaleR -| RI has-child-R*(RI )*has-child*另外,有两个类似于FOL中的全集(true)和空集(false)的算子topTIMale MaleBottomMan Man在在DLDL中添加算子中添加算子一般地,在描述逻辑中添加不同的算子,则得到不同表达能力的描述逻辑,其复杂性问题也不尽相同。例如,在ALC的基础上添加逆(

14、 - )算子,则构成ALCI若再加上数量约束算子(n , n ),则构成ALCIQ。若在描述逻辑中添加时序算子,则构成为时序描述逻辑(Temporal Description Logic),例如,可以添加:Until算子 U: C U DSince算子 S: C S D还可以加入其它算子,如模态算子 , , 等。4 描述逻辑中的推理1) 一致性(协调性consistency)2) 可满足性(satisfiability)3) 包含检测(subsumption)4) 实例检测 (instance checking)5) Tableaux算法6)可判定性7)计算复杂性1)1)一致性检测一致性检测(

15、Consistency)(Consistency) C关于关于Tbox T是协调的吗?是协调的吗?即检测是否有T的模型 I 使得 C ?知识库知识库是协调的吗?是协调的吗?即检测是否有的模型 (解释) I ?2) 2) 概念可满足性概念可满足性( (Satisfiablity) ) 对一个概念C,如果存在一个解释I使得CI是非空的,则称概念C是可满足的,否则是不可满足的。 检验一个概念的可满足性,实际上就是看是否有解释使得这个概念成立。例如:概念Male Female,即需要检测是否有性别既是男的又是女的这样的人。若确实是没有这种两性人,则我们断言,这个概念是不可满足的。 又如概念: stud

16、ent worker,它是可满足的。即代表那些在职学生的集合。定理:概念C是可满足的,当且仅当C不包含于。3) 3) 概念包含概念包含( (Subsumption) )在知识库中检测在知识库中检测:C D?即检测 CI DI 是否在所有的解释中成立?在在Tbox中检测中检测:C D?即检测 CI DI 是否在Tbox T的所有解释中成立?例如:例如:bird animal computer equipment包含与可满足性的关系包含与可满足性的关系C D iff C D是不可满足的。C T D iff C D关于T是不可满足的。C 关于T是一致的 iff C T A A DDCC D 4 4)

17、实例检测)实例检测(Instance checking)(Instance checking)概念的实例:概念的实例:Student (John),或者表示为 John:Student关系的实例:关系的实例:Father(John, Mary)实例检索:实例检索:检索属于某个概念的所有实例的集合5 5)可满足性检测算法)可满足性检测算法TableauxTableaux算法算法1) 规则规则: :S x:C1, x:C2S,若x:C1 C2在S中,且x:C1和x:C2不在S中同时出现。2) 规则规则: :S x:DS,若x:C1C2在S中,x:C1和x:C2都不在S中,且D= C1或者D= C2

18、。3) 规则规则: :S xP1y,xPky, y:CS,若x:R.C在S中,R= P1Pk,没有z使得xRz在S中成立,且z:C在S中,y为一个新变量。4) 规则规则: :S y:CS,若x:R.C在S中,xRy在S中成立,且y:C不在S中。 例子:检测概念的可满足性:(has-child.Male) (has-child.Male),其检测过程为:(has-child.Male) (has-child.Male)(x)(has-child.Male)(x)规则(has-child.Male)(x)规则has-child (x, y)规则Male (y)规则Male (y)规则矛盾所以这个概

19、念是不可满足的。6 6)可判定性)可判定性描述逻辑中的可满足性问题是可判定的。其它推理问题基本上可以归结为可满足性问题。7 7)计算复杂性)计算复杂性 描述逻辑中的推理问题其计算复杂性一般是多项式时间的。但通常由于构造的不同,其复杂性也有一定的差异。Semantic Web Architecture语义排歧原文:老虎咬死了猎人的狗。划分1:咬死了猎人的狗划分2:咬死了猎人的狗解决1:使用统计经验值。解决2:使用上下文语境信息。问题:引入语境信息会降低算法效率。排序策略与算法根据相关度排序:频度、位置、扇入度根据个人信息排序:挖掘历史数据。按类。二次排序:基于伪反馈的语义相似度计算。取top-k

20、文档构建向量空间,计算查询词组与向量空间的相似度。基于潜在语义分析的相似度计算。向量空间模型基本思想:以文本的特征向量来表示文本。三个基本概念: 文档(Document)VSM中处理的对象单元,如句子、文章等。 义项(Term)VSM中最小的不可分的语言单元,如字、词或词组。例如文档可 表示为:D(T1,T2,Tn),其中Tk为义项。 义项的权值(Weight)对于含有n个义项的文档D(T1,T2Tn),每一个义项Tk都根据一定的原则被赋予一个权值wk,表示他们在文档中的重要程度。这样一个文档就可以表示为:D(T1,w1,Tn,wn)。在明确Tk的情况下可以简记为D(w1,w2,wn)向量空间

21、矩阵见板书:单词为行,文档为列,TF/IDF为矩阵元素。潜在语义分析潜在语义分析的主要方法即是对文档进行计算,找到其中隐含的语义关系,步骤如下:1.生成词汇文本矩阵X,其中xij表示第i个词汇在第j个文本中出现的频率,或tf-idf值。2.潜在语义分析权值计算。3.奇异值分解(SVD)。4.计算各种相似度。潜在语义分析的物理意义4 基本开发步骤定义领域本体。如果需要,还要定义全局 本体和本体间的影射规则。计算领域本体的向量空间中心线。构建训练集、语料库。训练集通常是大规模文档集合。可以是标注的或未标注的。设计业务模块。例如信息查询、数据挖掘。测试系统。用公共测试集验证相关算法或业务流程。5 智

22、能搜索引擎:一个实例5.1 搜索引擎类型5.2 查询扩展5.3 重排序5.1 搜索引擎类型理想型理想型:web网页被完整语义标注,引擎对查询请求语句作深层语义分析,具有智能推理功能。完整型完整型:具有全面语义分析、搜索和推理能力,可以对web网页做自动标注。少量机构正在研发。 马里兰大学设计和研发的swoogle ; UMBC大学eBquity实验室开发的OWLIR; 改进型改进型:基于现有搜索引擎,对其输入输出接口做语义升级。5.2 查询扩展方法基于同义词词典无约束扩展基于同义词词典的有限扩展:基于信息增益、互信息等数据特征基于语义模型的有限扩展:扩展词来源于同义词词典、本体概念及实例、上下

23、位概念等语义扩展算法流程图构建语义树语义词典WordNet构建语义树基于语义模型的查询扩展构建领域本体和训练集。对查询请求预分类,为扩展提供外部语境。对源句做语法语义分析,提取概念集合及概念之间依存关系,计算其统计权值和语义结构权值,得到语义模型。扩展查询词:同义词无约束扩展,信息增益约束扩展,互信息扩展,语义模型约束扩展。统计方面的扩展基于互信息的统计模型带有衰减因子的互信息其中, , 表示词和词在所有窗口单元中的平均距离。表示词间相关性随词间距离衰减的剧烈程度。 5.3 重排序基于语义相似度计算:向量空间、潜在语义分析变换。个性化要求对片断的抽取返回文档排序文档和查询的相似度计算根据相似度

24、的高低排序返回文档Semantic web应用信息抽取自动摘要自动查询Semantic web services1 起源2 web services框架3 语义web services结构1 起源在web services技术中增加语义描述、发现和推理能力。Web services是分布式计算技术,具有“单系统映射”特性。Web services的查找和匹配是基于名称或属性的精确匹配,处于语法层次。增加语义层是为了解决异构问题。Web Services 框架框架 Web Services 组件。包括 3 种组件:服务提供者; 服务代理; 服务请求者。 Web Services 操作。包括 3

25、种操作: 发布/不发布(Publish/Unpublish); 发现(Find); 绑定(Bind)。 Web services 工作原理工作原理基础的 Web Services 平台是 XML + HTTP。HTTP 协议是最常用的因特网协议。XML 提供了一种可用于不同平台标记语言。Web services 平台的元素:SOAP (简易对象访问协议) UDDI (通用描述、发现及整合) WSDL (Web services 描述语言) Web services工作模式Semantic web services层次结构RDF组成RDF Data Model RDF Schema RDF Sy

26、ntax RDF Data Model它包含一系列的节点N; 它包含一系列属性类P; 每一属性都有一定的取值V; RDF Data Model是一个三元组:节点,属性类,属性值; 每一个RDF Data Model可以看成是由节点和弧构成的有向图。 RDF Schema 定义资源以及属性的类别; 定义属性所应用的资源类以及属性值的类型; 定义上述类别声明的语法; 申明一些由其它机构或组织定义的元数据的标准的属性类。 RDF Schema(续)RDF Schema定义了三个核心类: rdf:Resource、rdfs:Property、rdfs:Class;五个核心属性: rdf:type、rd

27、fs:subClassof、rdfs:seeAlso、rdfs:subpropertyof、rdfs:isDefinedBy; 四个核心约束: rdfs:ConstantResource、rdfs:range、rdfs:ConstraintProperty和rdfs:domain。 RDF Basic ConceptsTo make these statements machine-proccessable two things are needed:a system of machine-processable identifiers (for subjects, predicates an

28、d objects) without any possibilty of confusion between similar looking identifiers a machine-processable language for representing these statements and exchanging them between machinesRDF defines a XML markup language, named RDF/XML, which allows to represent RDF statements.Uniform Resource Identifi

29、ers (URI) allow to identify and uniquely name things - even if they have no network-accessible location.RDF ModelAs mentioned:RDF makes statements about resourcesEach statement consists of a subject, a predicate and an objecthttp:/www.example.org/index.html has a creator whose value is John Smithhtt

30、p:/www.example.org/staffid/5232http:/purl.org/dc/elements/1.1/creator http:/www.example.org/index.htmlsubjectobjectpredicateWeb Ontology Language (OWL) is another effort developed by the OWL working group of the W3Consorsium.OWL is an extension of DAML+OIL.OWL is divided following sub languages.OWL

31、Lite OWL (Description Logics) DLOWL Full limited cardinalityOWL Lite provides many of the facilities of DAML+OIL provides. In addition to RDF/RDFS tags, it also allows us to express equivalence, identity, difference, inverse, and transitivity. OWL Lite is a subset of OWL DL, which in turn is a subset of OWL Full. AIST Meeting JPL, CA 2003描述语言进化过程扩展后的OWL-S本体结构 OWL-S中服务描述Web Services and the Semantic Web (ServiceProfile)Profile Definition of Profile

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号