基于本体的语义信息检索模型研究

上传人:E**** 文档编号:118152879 上传时间:2019-12-11 格式:PDF 页数:55 大小:436.89KB
返回 下载 相关 举报
基于本体的语义信息检索模型研究_第1页
第1页 / 共55页
基于本体的语义信息检索模型研究_第2页
第2页 / 共55页
基于本体的语义信息检索模型研究_第3页
第3页 / 共55页
基于本体的语义信息检索模型研究_第4页
第4页 / 共55页
基于本体的语义信息检索模型研究_第5页
第5页 / 共55页
点击查看更多>>
资源描述

《基于本体的语义信息检索模型研究》由会员分享,可在线阅读,更多相关《基于本体的语义信息检索模型研究(55页珍藏版)》请在金锄头文库上搜索。

1、湖北工业大学 硕士学位论文 基于本体的语义信息检索模型研究 姓名:余凡 申请学位级别:硕士 专业:计算机应用技术 指导教师:曹刚;张继东 20100501 湖 北 工 业 大 学 硕 士 学 位 论 文 I 摘 要 计算机的普及以及基础设施的完善导致人们对网络信息资源的需求持续升 温,网络自由宽松的环境方便人们利用各种形式的信息载体发布信息。信息发布 形式和信息载体的多样化增加了用户查找所需信息的难度。传统的信息检索技术 为用户查找信息提供了必要的支持,但基于关键词的信息检索技术无法理解关键 词本身的含义,导致检索结果查全率和查准率普遍偏低,无法满足用户的需求。 本文在传统信息检索技术的基础上

2、,提出基于本体的语义信息检索模型。借 助本体明确详细的概念结构和对领域属性的推理功能,定义用户和计算机共享的 领域知识,提高用户信息检索的质量和效率。本文做的主要工作有: (1)阐述了本体的相关概念,包括本体基本概念、本体分类、本体功能、本 体描述语言、本体构建工具等几个方面。 (2)提出了基于本体的语义信息检索模型框架,简要地描述了系统框架各个 模块的设计思路和实现方法,描述了系统整体工作流程。 (3)研究了系统关键技术,包括本体建库技术,本体推理技术,本体语义检 索工具 Jena 和全文检索工具 Lucene。 (4)介绍了模型本体描述方案,本体存储方案,本体推理方案,模型检索方 案,系统

3、可视化方案。 关键词:关键词:本体,信息检索,Jena 湖 北 工 业 大 学 硕 士 学 位 论 文 II Abstract The popularization of computers, as well as the perfection of infrastructure contributes to peoples demand of network information resources continuously warming. The free and loose environment of network facilitates people to use variou

4、s forms of information publishing messages. The diversity of releasing forms and carriers of information increases the difficulty for people to find the needed information. Traditional information retrieval technology provide the necessary support for users searching information, but keyword-based i

5、nformation retrieval technology can not understand the meaning of keywords themselves, resulting in the reduction of the recall and precision of searching results, which is unable to meet the needs of users. Based on the traditional information retrieval technology, this paper proposes semantic info

6、rmation retrieval model based on ontology. With the definite and detailed concept structure of ontology and its reasoning capabilities to the properties of domain, we can define the domain knowledge shared by users and computers, improving the quality and efficiency of users information retrieval. T

7、he main work done by the paper includes: (1) Describing the relevant concepts of ontology, including the basic concepts of ontology, and its classification, function, description language, constructing tools and other aspects. (2) Proposing ontology-based semanic information retrieval model framewor

8、k, describing briefly the design concept and implementation method of each module of system framework, and its whole workflow. (3) Researching the key technologies of system, including the construction of ontology database, ontology reasoning, Jena, ontology-based semantic retrieval tool, lucene, fu

9、ll-text retrieval tool. (4) Introducing the describing program of ontology, its storing and reasoning programs, the retrieval program of model and visualization program of system. Keywords:Ontology, Information Retrieval, Jena 学位论文原创性声明和使用授权说明 原创性声明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工 作所取得的研究成果。

10、除文中已经标明引用的内容外,本论文不包含任何其他个 人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有 权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权湖北工业大学可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 学位论文作者签名: 指导教师签名: 日期: 年 月

11、 日 日期: 年 月 日 湖 北 工 业 大 学 硕 士 学 位 论 文 1 第 1 章 引 言 1.1 研究目的和意义 计算机的普及以及基础设施的完善导致人们对网络信息资源的需求持续升 温,网络自由宽松的环境方便人们利用各种形式的信息载体发布信息,网络信息 资源也形成了一些特点 1:生存周期缩短。网络每时每刻都在增加新的资源和替换 旧的资源,信息内容丰富,形式多样,生存周期明显缩短。信息内容重复。网络 上存在大量的相互引用信息,导致资源重复浪费。信息形式没有规范。网络环境 没有限制信息发布者的信息质量,各种非结构化的信息很难被计算机处理,信息 索引的难度加大。 用户通过使用搜索引擎从网络上获

12、取所需信息。传统的信息检索主要采用三 种技术:基于关键词的匹配技术,全文检索技术,主题目录索引技术。该技术存 在以下问题 2:一个或多个关键词无法准确表达用户需求,导致检索系统的检索内 容与用户需求产生偏差,降低了检索质量。检索条件与检索内容不一致。检索系 统根据关键词在文章里出现的次数判断该文章是否满足条件,在某些情况下,这 种机制可能出现错误。检索关键词出现一词多义和一义多词现象。同一个词在不 同的环境下意思相差很大。例如, “白羊” ,有可能指一种动物,有可能是一个人 的姓名,也可能表示星座等等。关键词没有语境,导致信息检索的结果在查全率 和查准率上难以达到要求。 概念与概念存在着联系,

13、只有正确描述出概念之间的联系,才能查找到符合 用户需求的信息。传统的信息检索很难通过关键词来描述这种关系。检索系统在 降低匹配阀值的前提下提高查全率,以此来提高检索质量,但检索结果却成倍增 加,直接导致用户无法筛选出有效结果。 本体作为一种对于共享概念体系明确详细的形式化说明,提供描述特定领域 存在着的概念、属性及其相互关系术语集 3。通过使用本体,借助本体明确详细的 概念结构和对领域属性的推理功能,定义用户和计算机共享的领域知识,提高用 户信息检索的质量和效率。 1.2 国内外研究现状 最开始由哲学领域的专家提出本体(Ontology)相关概念,本体最初用于描 述事物及关系,其中事物泛指世界

14、上客观存在的所有物质,关系指事物之间客观 湖 北 工 业 大 学 硕 士 学 位 论 文 2 存在的必然联系。本体的基本定义和将事物抽象为本体概念的方法在近些年逐渐 被计算机领域采纳,随着计算机领域对本体的了解愈加深入,本体逐渐被计算机 领域吸收和利用。例如最典型的应用就是语义 Web,为了在传统的 Web 上嵌入事义 功能,提高用户满意度,本体被定义在语义 Web 七层模型的第四层中,起到了承 上启下的关键作用 4。 数字图书馆也在不断尝试利用本体的语义功能提高其服务效 率。 国外基于本体的项目有 5,6,7:CYC、OntoWeb、OntoKnowledge。CYC 使用一阶 逻辑语言断言

15、构建知识库。知识库中包括基于逻辑断言。利用推理技术和推理规 则文件可以对知识库进行推理,得到更加丰富的知识库。CYC 利用知识库里的本体 知识对各个领域本体开发提供支持。OntoWeb 主要利用本体提高各个学科的耦合 度,让各个学科能够更好的相互渗透,提高共同完成某项任务的可能性。 OntoKnowledge 主要利用本体提升信息系统的管理水平, 主要针对分布式系统的知 识管理。 国外基于本体的信息检索项目主要有 8,9,10:SKC、Ontobroker、Semantic Web Search 和(Onto)Agent。SKC 通过建立一个基于本体的系统,利用本体之间可以 方便地互相访问的特

16、性,实现不同操作平台、不同数据库、不同语言编写的应用 软件之间的互操作。Ontobroker 通过建立基于本体的检索系统,利用本体的语义 关联特性,提高检索质量和用户满意度。Semantic Web Search 是一个面向人或者 计算机的基于本体的搜索引擎。它会给用户提供搜索界面,用户在搜索文本框中 输入搜索关键词并且选择搜索类型后,它就能利用本体特性返回精确度很高的结 果。对于计算机访问,它会将计算机的搜索要求封装成 Web 服务并交由代理处理, 处理完后返回给计算机。 (Onto)Agent 通过建立基于本体的检索系统,协助用户 在 Internet 上检索到已经建立的本体,供用户开发使用。 国内研究本体相对较晚。周若静在本体的构建及其在图书信息检索中的应 用研究中提出了一种适合图书本体构建的方法,并构建了基于本体的图书信息 检索模型 11。陈志伟在本体的构建及其在信息检索系统中的应用中介绍了领

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号