基于本体的语义信息检索模型研究

上传人:公**** 文档编号:547962868 上传时间:2022-12-12 格式:DOC 页数:53 大小:975KB
返回 下载 相关 举报
基于本体的语义信息检索模型研究_第1页
第1页 / 共53页
基于本体的语义信息检索模型研究_第2页
第2页 / 共53页
基于本体的语义信息检索模型研究_第3页
第3页 / 共53页
基于本体的语义信息检索模型研究_第4页
第4页 / 共53页
基于本体的语义信息检索模型研究_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《基于本体的语义信息检索模型研究》由会员分享,可在线阅读,更多相关《基于本体的语义信息检索模型研究(53页珍藏版)》请在金锄头文库上搜索。

1、湖北工业大学硕士学位论文基于本体的语义信息检索模型研究姓名:余凡申请学位级别:硕士专业:计算机应用技术指导教师:曹刚;张继东20100501湖北工业大学硕士学位论文摘要计算机的普及以及基础设施的完善导致人们对网络信息资源的需求持续升温,网络自由宽松的环境方便人们利用各种形式的信息载体发布信息。信息发布形式和信息载体的多样化增加了用户查找所需信息的难度。传统的信息检索技术为用户查找信息提供了必要的支持,但基于关键词的信息检索技术无法理解关键词本身的含义,导致检索结果查全率和查准率普遍偏低,无法满足用户的需求。本文在传统信息检索技术的基础上,提出基于本体的语义信息检索模型。借助本体明确详细的概念结

2、构和对领域属性的推理功能,定义用户和计算机共享的领域知识,提高用户信息检索的质量和效率。本文做的主要工作有:(1)阐述了本体的相关概念,包括本体基本概念、本体分类、本体功能、本体描述语言、本体构建工具等几个方面。(2)提出了基于本体的语义信息检索模型框架,简要地描述了系统框架各个模块的设计思路和实现方法,描述了系统整体工作流程。(3)研究了系统关键技术,包括本体建库技术,本体推理技术,本体语义检索工具 Jena 和全文检索工具 Lucene。(4)介绍了模型本体描述方案,本体存储方案,本体推理方案,模型检索方案,系统可视化方案。关键词:本体,信息检索,JenaI湖北工业大学硕士学位论文Abst

3、ractThe popularization of computers, as well as the perfection of infrastructurecontributes to peoples demand of network information resources continuously warming.The free and loose environment of network facilitates people to use various forms ofinformation publishing messages. The diversity of re

4、leasing forms and carriers ofinformation increases the difficulty for people to find the needed information.Traditional information retrieval technology provide the necessary support for userssearching information, but keyword-based information retrieval technology can notunderstand the meaning of k

5、eywords themselves, resulting in the reduction of the recalland precision of searching results, which is unable to meet the needs of users.Based on the traditional information retrieval technology, this paper proposessemantic information retrieval model based on ontology. With the definite and detai

6、ledconcept structure of ontology and its reasoning capabilities to the properties of domain,we can define the domain knowledge shared by users and computers, improving thequality and efficiency of users information retrieval. The main work done by the paperincludes:(1) Describing the relevant concep

7、ts of ontology, including the basic concepts ofontology, and its classification, function, description language, constructing tools andother aspects.(2) Proposing ontology-based semanic information retrieval model framework,describing briefly the design concept and implementation method of each modu

8、le ofsystem framework, and its whole workflow.(3) Researching the key technologies of system, including the construction ofontology database, ontology reasoning, Jena, ontology-based semantic retrieval tool,lucene, full-text retrieval tool.(4) Introducing the describing program of ontology, its stor

9、ing and reasoningprograms, the retrieval program of model and visualization program of system.Keywords:Ontology, Information Retrieval, JenaII学位论文原创性声明和使用授权说明原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签

10、名:日期:年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。学位论文作者签名:指导教师签名:日期:年月日日期:年月日湖北工业大学硕士学位论文第 1 章 引 言1.1 研究目的和意义计算机的普及以及基础设施的完善导致人们对网络信息资源的需求持续升温,网络自由宽松的环境方便人们利用各种形式的信息载体发布信息,网络信息资源也形成了一些特点1:生存周期缩

11、短。网络每时每刻都在增加新的资源和替换旧的资源,信息内容丰富,形式多样,生存周期明显缩短。信息内容重复。网络上存在大量的相互引用信息,导致资源重复浪费。信息形式没有规范。网络环境没有限制信息发布者的信息质量,各种非结构化的信息很难被计算机处理,信息索引的难度加大。用户通过使用搜索引擎从网络上获取所需信息。传统的信息检索主要采用三种技术:基于关键词的匹配技术,全文检索技术,主题目录索引技术。该技术存在以下问题2:一个或多个关键词无法准确表达用户需求,导致检索系统的检索内容与用户需求产生偏差,降低了检索质量。检索条件与检索内容不一致。检索系统根据关键词在文章里出现的次数判断该文章是否满足条件,在某

12、些情况下,这种机制可能出现错误。检索关键词出现一词多义和一义多词现象。同一个词在不同的环境下意思相差很大。例如,“白羊”,有可能指一种动物,有可能是一个人的姓名,也可能表示星座等等。关键词没有语境,导致信息检索的结果在查全率和查准率上难以达到要求。概念与概念存在着联系,只有正确描述出概念之间的联系,才能查找到符合用户需求的信息。传统的信息检索很难通过关键词来描述这种关系。检索系统在降低匹配阀值的前提下提高查全率,以此来提高检索质量,但检索结果却成倍增加,直接导致用户无法筛选出有效结果。本体作为一种对于共享概念体系明确详细的形式化说明,提供描述特定领域存在着的概念、属性及其相互关系术语集3。通过

13、使用本体,借助本体明确详细的概念结构和对领域属性的推理功能,定义用户和计算机共享的领域知识,提高用户信息检索的质量和效率。1.2 国内外研究现状最开始由哲学领域的专家提出本体(Ontology)相关概念,本体最初用于描述事物及关系,其中事物泛指世界上客观存在的所有物质,关系指事物之间客观1湖北工业大学硕士学位论文存在的必然联系。本体的基本定义和将事物抽象为本体概念的方法在近些年逐渐被计算机领域采纳,随着计算机领域对本体的了解愈加深入,本体逐渐被计算机领域吸收和利用。例如最典型的应用就是语义 Web,为了在传统的 Web 上嵌入事义功能,提高用户满意度,本体被定义在语义 Web 七层模型的第四层

14、中,起到了承4率。国外基于本体的项目有5,6,7:CYC、OntoWeb、OntoKnowledge。CYC 使用一阶逻辑语言断言构建知识库。知识库中包括基于逻辑断言。利用推理技术和推理规则文件可以对知识库进行推理,得到更加丰富的知识库。CYC 利用知识库里的本体知识对各个领域本体开发提供支持。OntoWeb 主要利用本体提高各个学科的耦合度,让各个学科能够更好的相互渗透,提高共同完成某项任务的可能性。OntoKnowledge 主要利用本体提升信息系统的管理水平,主要针对分布式系统的知识管理。国外基于本体的信息检索项目主要有8,9,10:SKC、Ontobroker、Semantic WebSearch 和(Onto)Agent。SKC 通过建立一个基于本体的系统,利用本体之间可以方便地互相访问的特性,实现不同操作平台、不同数据库、不同语言编写的应用软件之间的互操作。Ontobroker 通过建立基于本体的检索系统,利用本体的语义关联特性,提

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号