信息存储与检索教学课件 ppt 作者王知津第2章

资源描述

《信息存储与检索教学课件 ppt 作者王知津第2章》由会员分享，可在线阅读，更多相关《信息存储与检索教学课件 ppt 作者王知津第2章（106页珍藏版）》请在金锄头文库上搜索。

1、第二章信息检索模型,信息存储与检索,本章目录,第一节引言第二节经典模型第三节集合理论模型第四节代数模型第五节结构化模型,信息存储与检索,第一节引言,任何检索策略都包含3个部分：文档表示、查询表示和匹配函数。文档表示反映文档在系统中的存储形式描述，可用一组关键词或标引词表示；查询表示反映对用户信息需求的描述；匹配函数用于将经过处理的文档表示和查询表示放入系统中进行匹配，以过滤输出结果。信息检索系统的实现首先要对文档集进行索引和归档，以支持信息检索。检索式代表用户的信息需求。检索系统分析查询与文档表示，进行相似性匹配，排序返回查询结果。因此文档信息检索过程实际上涉及文档集的

2、逻辑表示、用户查询表示、相似性匹配及其排序三个重要的处理。,信息存储与检索,第一节引言,信息检索模型主要从两个方面抽象地研究信息检索方法：一是确定在检索模型中如何表示构成检索系统的两个要素，即文档和检索式；二是确定在模型中如何定义和计算文档和检索式之间的关系。检索模型的重要作用主要体现在以下几个方面：更精确地描述出文档与文档、文档与查询间的相关关系，使之能比较和计算；安排更合理、更便于检索的文档存储形式；在此基础上设计出合理的检索方式；除信息检索外，进行一些信息辅助分析工作。传统的信息检索模型（又称经典信息检索模型）包括布尔模型、向量空间模型和概率模型。,信息存储与检索,第一节引言,信

3、息检索模型到底是什么？其描述如下: 信息检索模型是一个四元组/D，Q，F，R(qi, dj)/：（1）D是文档集中的一组文档逻辑视图（表示），称为文档的表示；（2）Q是一组用户信息需求的逻辑视图（表示），这种视图（表示）称之为查询；（3）F是一种机制，用于构建文档表示，查询及它们之间关系的模型；（4）R(qi, dj)是排序函数，该函数输出一个与查询qi Q和文档表示dj D有关的实数，这样就在文档之间根据查询qi定义了一个顺序。,信息存储与检索,第一节引言,基于经典布尔模型的信息检索模型中，文档和查询用标引词集合来表示，都是建立在集合理论的基础之上，因此，我们称该类模型为集合理论模

4、型，包括模糊集合论模型、扩展布尔模型和粗糙集模型等。基于经典向量模型的信息检索模型中，文档和查询用t维空间的向量来表示，都是建立在代数理论的基础之上，则称该类模型为代数模型，包括广义向量模型、潜语义标引模型和神经网络模型等。基于经典概率模型的信息检索模型中，用于构建文档和查询模型的机制是基于概率论的，则称该类模型为概率模型，包括推理网络模型和信任度网络模型等。,信息存储与检索,第一节引言,除经典模型及其改进模式外，较重要的信息检索模型还有结构化模型，主要包括：非重叠链表模型、邻近结点模型、扁平浏览模型、结构导向模型和超文本模型等。在本章中，我们将讨论以上所述的除推理网络模型和信任度网络

5、模型外的各种信息检索模型，推理网络模型和信任度网络模型的知识结构相对较为复杂，有兴趣的同学可利用相关资料进行学习。,信息存储与检索,第二节经典模型,2.2.3 概率模型,3,信息存储与检索,第二节经典模型,信息检索的经典模型认为，每篇文档可以用一组有代表性的关键词即标引词集合来描述，标引词(index term)是文档中的词，其语义可以帮助理解文档的主题；因此，标引词常用于编制索引和概括文档的内容。对于文档中的标引词集合来说，在描述文档内容时它们的作用是不尽相同的，因而应当明确标引词与文档内容的密切程度。,信息存储与检索,第二节经典模型,用ki表示标引词，dj表示文档，wi,j 0为二元

6、组(ki, dj)的权值(weight)，该权值可以用来衡量描述文档语义内容的标引词的重要性。用t表示系统中标引词的数目，K=k1, k2, . , kt是所有标引词的集合，wi,j 0是文档dj中的标引词ki的权值，对于没有出现在文档文本中的标引词，其权值wi,j =0。文档dj可以用标引词向量dj来表示：dj= (w1,j, w2,j, , wt,j)。此外，函数gi用以返回任何t维向量中标引词ki的权值，即gi (dj) = wi,j。其中，标引词的权重通常被认为是互相独立的。,信息存储与检索,2.2.1 布尔模型,布尔模型(Boolen Model)是基于集合理论和布尔代数的一种简单的

7、检索模型，它假定标引词在文档中要么出现，要么不出现。因此，标引词的权值全部被设为二值数据，wi,j0, 1，查询q由连接词not、and、or连接起来的多个标引词所组成，如“奥运会”、“奥运会”and“中国”、“奥运会”and（“中国”or（not“体操”）等，通过对标引词与用户给出的检索式进行逻辑比较来检索文本。,信息存储与检索,2.2.1 布尔模型,设文本集D中某一文本i, 该文本可表示为:Di = ( t1, t2, . , tm ) ,其中, t1, t2, , tm 为标引词, 用以反映i的内容。另设用户某一检索式如下:qj = ( t1 and t2) or ( t3 not t4

8、) 或者qj = ( t1 t2) ( t3 t4)。对于该检索式, 系统响应并输出的一组文本应为: 它们都含有标引词t1和t2, 或者含有标引词t3, 但不含有标引词t4。,信息存储与检索,2.2.1 布尔模型,如果sim(dj,q)=1，则布尔模型表示文档与查询相关（也可能不相关），否则文档dj与查询q不相关。,定义对于布尔模型而言，标引词权值变量都是二值的，即wi,j0, 1，查询q是一个常规的布尔表达式。用qdnf表示查询q的析取范式，qcc表示qdnf的任意合取分量。文档dj和查询q的相似度可以定义为：,信息存储与检索,2.2.1 布尔模型,例如检索式是“图书馆”and“档案馆”

9、，基于表2-1的内容进行检索，那么得到的结果是文档2，假如检索条件是“图书馆”or“档案馆”，则检索结果是文档1、文档2和文档3。,信息存储与检索,2.2.1 布尔模型,布尔检索模型是最早提出的一个信息检索模型，它具有简单、易理解、易实现等优点, 故得到广泛的应用。1967年后, 布尔检索正式被大型文档检索系统采用, 并渐成为各种商业性联机检索系统的标准检索模式，服务信息情报界30多年, 直到现在, 大多数商用检索系统仍采用布尔检索。尽管布尔模型有着种种的优点, 但是它的缺点仍然是明显的, 它存在的主要缺陷有以下几点： (1)布尔逻辑式的构造不易全面反映用户的需求。 (2)匹配标准存在某些不

10、合理的地方。 (3)检索结果不能按照用户定义的重要性排序输出。,信息存储与检索,2.2.2 向量模型,向量模型又叫向量空间模型(Vector Space Model,简称VSM)。由于使用二值权值(binary weight)的布尔检索存在太多的局限，信息检索研究中便提出了一种框架以便能够进行部分匹配，即通过给查询和文档中的标引词分配非二值权值(non-binary weight)来实现这个目标。该权值用于计算存储在系统中的文档和用户查询之间的相似度，向量模型通过对检出文档按相似度降序排列的方式来实现文档与查询的部分匹配。,信息存储与检索,2.2.2 向量模型,一个向量空间是由一组线性无关的基

11、本向量组成，向量维数与向量空间维数一致，并可以通过向量空间进行描述。设文档集D中某一文档i，该文档可表示为：Di = ( t1, t2, . , tm ) ，其中, t1, t2, , tm 为标引词, 用以反映i的内容。则相应的特征项tn能够代表文档Di能力的大小，体现了特征项在文档中的重要程度，文档Di的向量可以表示为Di (wi,1, wi,2, . , wi,m)，其中wi,1, wi,2, . , wi,m分别代表文档D 特征项t1, t2, . , tm的特征项权重。相似度S指两个文档内容相关程度的大小，当文档以向量来表示时，可以使用向量文档向量间的距离来衡量,一般使用内积或夹角的

12、余弦来计算，两者夹角越小说明相似度越高。,信息存储与检索,2.2.2 向量模型,由于查询也可以在同一空间里表示为一个查询向量，可以通过相似度计算公式计算出每个文档向量与查询向量的相似度，即:,Sim (D1, D2) =,或,Sim (D1, D2) = cos =,排序这个结果后与设立的阈值进行比较,如果大于阈值则页面与查询相关,保留该页面查询结果；如果小于则不相关,过滤此页。这样就可以控制查询结果的数量, 加快查询速度,信息存储与检索,2.2.2 向量模型,图2-1 文档VSM及相似度Sim(D1, D2),信息存储与检索,2.2.2 向量模型,从向量空间模型的特点可以看出，在特征项确定的

13、情况下，特征项的权重计算是文档分类的关键，特征项权重计算常用的方法有布尔函数、开根号函数、对数函数、TFIDF函数等，其中TFIDF 函数应用最为广泛。设N表示系统中的文档总数，ni表示包含标引词ki的文档数目，freqi, j表示语词ki在文档dj中的初始频率（如语词ki在文档dj文本中被提及的次数）。则文档dj中语词ki的标准化频率fi,j为：,fi,j =,信息存储与检索,2.2.2 向量模型,最大值是通过计算文档dj文本中出现的所有语词来获得的。如果语词ki不出现在文档dj中，则fi, j=0，语词ki的逆文档频率idfi为：,fi,j =,最著名的语词加权方案为：,wi,j = f

14、i,j,或者是这个公式的一个变形。对于查询语词的权值，Salton和Buckley指出可以采用如下方法，即,wi,q =,信息存储与检索,2.2.2 向量模型,VSM作为基于统计学方法的一个数学模型，充分发挥了计算机量化处理文档的特长，由于它一开始并没有对特征项的权值评价、文档向量与提问向量的相似度计算等问题做出统一的规定，加之它对文本语种的无关性，使它在文本信息处理的研究与应用具有广泛的适应性。30余年来，它在文本信息出来领域一直占据非常重要的地位，近乎成为文本处理领域的经典方法，主要优点在于：（1）标引词加权改进了检索效果；（2）其部分匹配策略允许检出与查询条件相接近的文档；（3）余弦公

15、式根据文档资料与查询之间的相似度对文档进行排序。,信息存储与检索,2.2.2 向量模型,在VSM的应用过程中也逐渐显现出了它的不足（1）由于特征项在文档中的不同位置代表不同的权重，而不同的关键词长度也会影响权重的大小。在传统的TFIDF 函数中，每增加一个文档都要重新计算向量，导致查询速度降低，同时由于使用频率因子，在扩大查询范围时，不可避免地会影响到查询的准确性。（2）查询和文档向量间是依靠链接来判断的，而且判断的依据是两者间相同关键词的简单比较，但实际情况是，大量的关键词具有相同的语义，同一关键词也会有多种语义的解释描述(即产生了语义分歧)。,信息存储与检索,2.2.3 概率模型,概率

16、模型的基本思想为：根据用户的检索q，可以将文档集D中的所有文档分为两类：一类与检索需求q相关（集合R），另一类与检索需求不相关()。在同一类文档中，各标引词具有相同或相近的分布；而属于不同类的文档中，标引词应具有不同的分布。因此，通过计算文档中所有标引词的分布，就可以判定该文档与检索的相关度。经典概率模型是由Roberson和Sparck Jones提出的，他对文档与检索相匹配的概率进行估计，估计值作为衡量文档相关性的尺度。,信息存储与检索,2.2.3 概率模型,对于检索q，任意文档dD与其相关和不相关的概率分别表示为：,，根据贝叶斯公式：,上述两式中的后两项只与检索需求q有关，而与每个文档无关，可以不计算，则将计算P(R|d)转化为计算P(d|R)。同理，对的的计算也将转化为的计算。,信息存储与检索,2.2.3 概率模型,由于标引词的数目很大，因此常常在计算中引入一些假设，以简化计算。对应不同的假

展开阅读全文

信息存储与检索 教学课件 ppt 作者 王知津 第2章

信息存储与检索教学课件 ppt 作者王知津第2章