基于本体术语关系的sbn检索模型扩展

上传人:E**** 文档编号:118252963 上传时间:2019-12-11 格式:PDF 页数:44 大小:3.02MB
返回 下载 相关 举报
基于本体术语关系的sbn检索模型扩展_第1页
第1页 / 共44页
基于本体术语关系的sbn检索模型扩展_第2页
第2页 / 共44页
基于本体术语关系的sbn检索模型扩展_第3页
第3页 / 共44页
基于本体术语关系的sbn检索模型扩展_第4页
第4页 / 共44页
基于本体术语关系的sbn检索模型扩展_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《基于本体术语关系的sbn检索模型扩展》由会员分享,可在线阅读,更多相关《基于本体术语关系的sbn检索模型扩展(44页珍藏版)》请在金锄头文库上搜索。

1、河北大学 硕士学位论文 基于本体术语关系的SBN检索模型扩展 姓名:田晋坤 申请学位级别:硕士 专业:计算机应用技术 指导教师:徐建民 2011-05 摘 要 I 摘 要 贝叶斯网络检索模型是信息检索中概率模型中的一种。 合理使用术语关系扩展该检 索模型可以有效地提高检索性能。本体是共享的概念模型的形式化的规范说明,具有概 念层次结构和逻辑推理功能。使用本体可以比较准确的获得术语间关联关系。 本文将 SBN 模型中的单术语层-文档层双层结构扩展为双术语层-文档层三层结构, 通过本体获得两层术语间的关联关系, 使用基于本体的术语关联度计算方法计算两层术 语间的关联度,给出了扩展模型各层节点的概率

2、估计以及检索模型的推理机制。在实验 中,本文首先使用骨架法建立了 5 个不同主题的本体实例,每个本体实例包含 10-20 个 术语;再通过基于本体的术语关联度计算方法获得所有术语间的关联度;然后使用小型 中文测试集作为测试数据, 从中抽取5个查询主题用于原始的SBN检索模型和扩展SBN 检索模型的检索; 最后使用内插法获得两组检索结果的查全率与查准率并对扩展模型的 每一步数据进行分析。实验结果表明,与原始 SBN 检索模型相比,基于本体术语关系 扩展的 SBN 检索模型具有更好的检索性能。 关键词 本体 术语关系 术语关联度 贝叶斯网络 Abstract II Abstract The Bay

3、esian Network Retrieval Model is one of the probability models in information retrieval. By extending this retrieval model with reasonable relations of terms, the retrieval function may be enhanced effectively. The ontology refers to the formalized specification of a shared conceptual model which po

4、ssesses both the conceptual layered structure and the logical reasoning function. Based on ontology, the relationship among terms can be accurately obtained. This thesis first extends the double-layer structure of SBN (Sample Bayesian Network) model, comprising 1 single term layer and 1 document lay

5、er, into a three-layer structure comprising 2 term layers and 1 document layer; and then obtains the relationship between 2 term layers through the ontology and calculates the relative degree between the terms of both layers by means of ontology-based method; and finally gives the probability estima

6、te of all the layer nodes of the extended model as well as the reasoning mechanism of the retrieval model. In the experiment, this thesis first of all builds up 5 instances of ontology with different themes by skeletal methodology, each containing 10 to 20 terms; and then obtains the relative degree

7、 among all the terms by ontology-based calculating method for term relative degree. After that it takes the small Chinese test collections as the testing data and picks 5 searching subjects for the original SNB retrieval model and the expanded model as well; and finally gets recall and precision of

8、both retrieval results by interpolation method and analyzes the data of each step of the expanded model. The experiment result shows that in comparison with the original SBN retrieval model, extended SBN retrieval model based on ontology term relationships boasts better retrieval function. Keywords

9、Ontology Terms relation Terms Relative Degree Bayesian network 第 1 章 引 言 1 第 1 章 引 言 1.1 研究背景 在过去的几十年中,贝叶斯网络是解决不确定性问题的一种主要方法。在信息检索 领域,以贝叶斯网络为理论基础,建立起了三种经典的模型,分别是贝叶斯网络模型1, 推理网络模型和信念网络模型2。简单贝叶斯网络检索模型(SBN 检索模型)作为贝叶斯 网络模型中主要的一种,它能够快速的表示出术语与文档间的条件概率,以此作为用户 查询与文档相似度计算的依据,推理严谨,是一种快速准确的基于语义的检索模型。合 理使用术语关系对该

10、模型进行扩展可以获得较好的检索性能。目前,存在基于同义词词 典和基于知网术语间关系扩展的贝叶斯网络检索模型, 但这些模型没有深度发掘术语间 的关系。 本体是“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成 的规定这些词汇外延的规则的定义”3,具有良好的概念层次结构和逻辑推理功能。基 于本体的术语关系能够深度挖掘术语间的关联关系, 为更精确的量化术语间关联度提供 保障。 目前,还没有学者提出使用基于本体的术语关系对 SBN 检索模型进行扩展的方法。 但通过贝叶斯网络的特点和本体的特性可以预测,使用本体术语关系对 SNB 检索模型 进行扩展可以的到一个比较理想的检索效果。 1.2

11、 国内外研究现状 二十世纪九十年代初, Turtle 和 Croft 设计了第一个应用贝叶斯网络进行信息检索的 模型,推理网络模型4-6。在该模型之后,Indrawn 和 Ribeiro-Neto 分别对已该模型进行 了改进,并分别提出各自的模型。但是在使用推理网络计算相关概率时,仅仅依赖于查 询中的术语,而没有考虑到术语之间的关联关系,使得很多与查询相关的结果无法检索 出来。 信念网络模型(Belief Network Model)是由 R. A. Ribeiro-Neto 等人提出的。该模型是 一种不确定性知识表达与推理模型7-8,是一种处理不确定性问题的有效方法。在客户 行为预测9、数据

12、分类挖掘10、发动机传感器数据证实11等许多领域中得到了重要的应 用。 河北大学工学硕士学位论文 2 简单贝叶斯网络检索模型 12是由 Acid 和 de Campos 等人提出的。 由于简单贝叶斯 网络模型仅由术语-文档两层组成,没有考虑术语之间的关系。所以,在简单贝叶斯网 络检索模型的基础上,Acid 和 de Campos 等人又相继提出了一系列的检索模型。包括通 过挖掘术语间关系而建立的 BNR 模型8、BNR-2 模型13,和通过挖掘文档间关系而建 立的扩展贝叶斯网络(EBNR)模型等14。其中,BNR 模型通过使用 polytree15方法挖掘 术语间的关系, 但是由于 polyt

13、ree 方法耗时长, 效率低, 所以该模型不具备实用性。 BNR-2 模型利用共现频率法挖掘术语间的关系,将术语间的关联关系添加到了检索模型中,但 是由于共现频率法依赖于被测试的集合, 并且共现频率法获得的术语并非语义相关的术 语,很难满足当前社会对于信息检索的智能化要求。 国内也有许多关于基于贝叶斯网络的信息检索模型的研究。 文献2提出基于查询术 语同义词的扩展信念网络检索模型, 该模型针对信念网络模型没有考虑到术语间关系的 缺陷,引入了查询同义词的概念,考虑了用户查询术语及其同义词的作用,提高了检索 性能。文献16使用基于知网的术语间关系对贝叶斯网络检索模型进行扩展,将基于知 网的术语相似

14、度与相关度的计算进行融合,提出计算术语间关联度的方法,并将计算结 果应用于扩展模型。文献17提出了基于同义词扩展的贝叶斯网络检索模型,该模型利 用同义词挖掘术语间的关系, 对简单贝叶斯网络进行改进,得到一个包含术语间直接关 系的扩展模型,通过使用同义词扩展提高了检索效果。文献18提出了基于本体关联关 系扩展的信念网络模型, 通过组合用户查询术语和本体的术语关系对信念网络模型进行 了扩展,以获得更好的检索效果。 术语间的关联度计算就一直以来都是信息检索领域研究的热点问题。 而本体因为其 具有良好的概念层次结构和对逻辑推理的支持, 自从被引入到计算机学界以来就深受国 内外相关学者的关注。利用本体来

15、计算概念间的相关度的理论基础是:两个概念间如果 具有一定的语义相关性,那么它们在概念间的结构层次网络图中就应该存在一条路径 19,将本体的关联关系应用于检索模型的扩展也越来愈多的受到学者的关注18。 虽然本体的研究已经取得了一定的进展, 但是至今尚未有学者使用量化的本体术语 关系对 SBN 检索模型进行扩展。如果将两者进行结合,发挥本体的语义特点和 SBN 检 索模型的扩展性和推理性,将实现很好的语义检索效果。 第 1 章 引 言 3 1.3 本文主要工作及创新点 本文使用文献13提出的拓扑结构,利用本体术语关联关系对贝叶斯网络检索模型 进行扩展,使用量化后的本体术语关系计算根术语节点到非根术

16、语节点的概率,强化了 根术语节点与非根术语节点间的关联关系,从而提高了查询结果的查全率和查准率,很 好的实现了基于语义的信息检索。在本文中详细描述了本体术语关系的计算方法及步 骤,扩展模型的拓扑结构,各层节点的概率计算方法,完整的推理机制,详细的检索过 程以及与原始模型检索结果的详细对比实验。 主要创新点是利用本体关联术语关系对贝 叶斯网络检索模型进行扩展,强化了根术语节点与非根术语节点间的关联关系,较好的 实现了基于语义的信息检索。 1.4 论文组织 本论文的组织结构如下: 第一章:引言。介绍本课题的研究背景,国内外研究现状,简要的概括本文主要的 工作及创新点。 第二章:基础知识介绍。介绍了信息检索的基础知识和本体的基础知识。其中,信 息检索的基础知识包括:信息检索的概念、发展、意义和作用,文档索引的建立方法, 信息检索的基本模型和语义检索的内容。本体的基础

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号