信息检索模型PPT－金锄头文库

资源描述

《信息检索模型PPT》由会员分享，可在线阅读，更多相关《信息检索模型PPT（104页珍藏版）》请在金锄头文库上搜索。

1、1,信息检索模型,计算机学院信息检索研究室秦兵,2,这一部分将讲述,布尔模型，向量空间模型，扩展的布尔模型概率模型和基于语言模型的信息检索模型的区别和联系基于本体的信息检索模型和基于隐性语义索引的信息检索模型,3,信息检索模型的概述,4,什么是模型？,模型是采用数学工具，对现实世界某种事物或某种运动的抽象描述面对相同的输入，模型的输出应能够无限地逼近现实世界的输出举例：天气的预测模型信息检索模型是表示文档，用户查询以及查询与文档的关系的框架,5,信息检索模型,信息检索模型是一个四元组D, Q, F, R(qi, dj) D: 文档集的机内表示 Q: 用户需求的机内表示 F: 文档

2、表示、查询表示和它们之间的关系的模型框架(Frame) R(qi, dj): 排序函数，给query qi 和document dj评分信息检索模型取决于：从什么样的视角去看待查询式和文档基于什么样的理论去看待查询式和文档的关系如何计算查询式和文档之间的相似度,6,模型分类,信息检索模型,布尔向量空间概率知识,模糊集扩展的布尔模型,集合论,代数,扩展的向量空间隐性语义索引神经网络,语言模型推理网络信念网络,概率,基于本体论的模型,人工智能,7,布尔模型(Boolean Model),8,布尔模型,最早的IR模型，也是应用最广泛的模型目前仍然应用于商业系统中 Luce

3、ne是基于布尔（Boolean）模型的,9,布尔模型描述,文档D表示一个文档被表示为关键词的集合查询式Q表示查询式(Queries)被表示为关键词的布尔组合，用“与、或、非”连接起来，并用括弧指示优先次序匹配F 一个文档当且仅当它能够满足布尔查询式时，才将其检索出来检索策略基于二值判定标准算法R 根据匹配框架F判定相关,10,举例,Q=病毒AND（计算机OR电脑）ANDNOT医文档： D1:据报道计算机病毒最近猖獗 D2：小王虽然是学医的，但对研究电脑病毒也感兴趣 D3：计算机程序发现了艾滋病病毒传播途径上述文档哪一个会被检索到？,11,查询表示,在布尔模型中，所有索引项的权

4、值变量和文档dj与查询q的相关度都是二值的查询q被表述成一个常规的布尔表达式，为方便计算查询q和文档d的相关度，一般将查询q的布尔表达式转换成析取范式qDNF,12,示例,文档集包含两个文档：文档1：a b c f g h 文档2：a f b x y z 用户查询：文档中出现a或者b，但一定要出现z。将查询表示为布尔表达式 ,并转换成析取范式文档1和文档2的三元组对应值分别为(1,1,0)和(1,1,1) 经过匹配 ,将文档2返回,13,优点,到目前为止，布尔模型是最常用的检索模型，因为：由于查询简单，因此容易理解通过使用复杂的布尔表达式，可以很方便地控制查询结果相当有效的实现方

5、法相当于识别包含了一个某个特定term的文档经过某种训练的用户可以容易地写出布尔查询式布尔模型可以通过扩展来包含排序的功能，即“扩展的布尔模型”,14,问题,布尔模型被认为是功能最弱的方式，其主要问题在于不支持部分匹配，而完全匹配会导致太多或者太少的结果文档被返回非常刚性: “与”意味着全部; “或”意味着任何一个很难控制被检索的文档数量原则上讲，所有被匹配的文档都将被返回很难对输出进行排序不考虑索引词的权重，所有文档都以相同的方式和查询相匹配很难进行自动的相关反馈如果一篇文档被用户确认为相关或者不相关，怎样相应地修改查询式呢？,15,向量空间模型,16,模型的提出,Sal

6、ton在上世纪60年代提出的向量空间模型进行特征表达成功应用于SMART（ System for the Manipulation and Retrieval of Text）文本检索系统这一系统理论框架到现在仍然是信息检索技术研究的基础,17,模型的描述,文档D(Document)：泛指文档或文档中的一个片段（如文档中的标题、摘要、正文等）。索引项t（Term）：指出现在文档中能够代表文档性质的基本语言单位（如字、词等），也就是通常所指的检索词，这样一个文档D就可以表示为D(t1,t2,tn)，其中n就代表了检索字的数量。特征项权重Wk（Term Weight）：指特征项tn能够代表

7、文档D能力的大小，体现了特征项在文档中的重要程度。相似度S（Similarity）：指两个文档内容相关程度的大小,18,模型的特点,基于关键词(一个文本由一个关键词列表组成) 根据关键词的出现频率计算相似度例如：文档的统计特性用户规定一个词项(term)集合，可以给每个词项附加权重未加权的词项: Q = database; text; information 加权的词项: Q = database 0.5; text 0.8; information 0.2 查询式中没有布尔条件根据相似度对输出结果进行排序支持自动的相关反馈有用的词项被添加到原始的查询式中例如：Q databa

8、se; text; information; document ,19,模型中的问题,怎样确定文档中哪些词是重要的词？（索引项）怎样确定一个词在某个文档中或在整个文档集中的重要程度？（权重）怎样确定一个文档和一个查询式之间的相似度？,20,索引项的选择,若干独立的词项被选作索引项(index terms) or 词表vocabulary 索引项代表了一个应用中的重要词项计算机科学图书馆中的索引项应该是哪些呢?,21,索引项的选择,这些索引项是不相关的 (或者说是正交的) ，形成一个向量空间vector space 实际上，这些词项是相互关联的当你在一个文档中看到 “计算机”, 非常有可

9、能同时看到“科学” 当你在一个文档中看到 “计算机”, 有中等的可能性同时看到 “商务” 当你在一个文档中看到“商务”，只有很少的机会同时看到“科学”,22,词项的权重,根据词项在文档(tf)和文档集(idf)中的频率(frequency)计算词项的权重 tfij = 词项j在文档i中的频率 df j = 词项j的文档频率= 包含词项j的文档数量 idfj = 词项j的反文档频率= log2 (N/ df j) N: 文档集中文档总数反文档频率用词项区别文档,23,Idf 计算示例,24,文档的词项权重(TFIDF举例),文本：“俄罗斯频繁发生恐怖事件，俄罗斯的安全部门加大打击恐怖主义的力度

10、。”,25,查询式的词项权重,如果词项出现在查询式中，则该词项在查询式中的权重为1，否则为0 也可以用用户指定查询式中词项的权重一个自然语言查询式可以被看成一个文档查询式：“有没有周杰伦的歌？” 会被转换为: 查询式： “请帮我找关于俄罗斯和车臣之间的战争以及车臣恐怖主义首脑的资料” 会被转换为: 过滤掉了：“请帮我找”，“和”，“之间的”，“以及”，“的资料” 两个文档之间的相似度可以同理计算,26,由索引项构成向量空间,2个索引项构成一个二维空间，一个文档可能包含0, 1 或2个索引项 di = 0, 0 (一个索引项也不包含) dj = 0, 0.7 (包含其中一个索引项) dk =

11、 1, 2 (包含两个索引项) 类似的，3个索引项构成一个三维空间，n个索引项构成n维空间一个文档或查询式可以表示为n个元素的线性组合,27,文档集一般表示,向量空间中的N个文档可以用一个矩阵表示矩阵中的一个元素对应于文档中一个词项的权重。“0”意味着该词项在文档中没有意义，或该词项不在文档中出现。,T1 T2 . Tt D1 d11 d12 d1t D2 d21 d22 d2t : : : : : : : : Dn dn1 dn2 dnt,28,图示,举例: D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3,D1比

12、D2更接近Q吗？怎样衡量相似程度？夹角还是投影,29,相似度计算,相似度是一个函数，它给出两个向量之间的相似程度，查询式和文档都是向量，各类相似度存在于：两个文档之间（文本分类，聚类）两个查询式之间（常问问题集）一个查询式和一个文档之间（检索）人们曾提出大量的相似度计算方法，因为最佳的相似度计算方法并不存在。,30,通过计算查询式和文档之间的相似度,可以根据预定的重要程度对检索出来的文档进行排序可以通过强制设定某个阈值，控制被检索出来的文档的数量检索结果可以被用于相关反馈中，以便对原始的查询式进行修正。 (例如：将文档向量和查询式向量进行结合),31,相似度度量内积(Inner

13、 Product),文档D 和查询式Q 可以通过内积进行计算: sim ( D , Q ) = (dik qk) dik 是文档di中的词项k 的权重，qk 是查询式Q中词项k的权重对于二值向量, 内积是查询式中的词项和文档中的词项相互匹配的数量对于加权向量, 内积是查询式和文档中相互匹配的词项的权重乘积之和,32,内积举例,二值（Binary）: D = 1, 1, 1, 0, 1, 1, 0 Q = 1, 0 , 1, 0, 0, 1, 1 sim(D, Q) = 3,retrieval,database,architecture,computer,text,management,i

14、nformation,向量的大小 = 词表的大小 = 7 0 意味着某个词项没有在文档中出现，或者没有在查询式中出现,加权 D1 = 2T1 + 3T2 + 5T3 D2 = 3T1 + 7T2 + T3 Q = 0T1 + 0T2 + 2T3 sim(D1 , Q) = 2*0 + 3*0 + 5*2 = 10 sim(D2 , Q) = 3*0 + 7*0 + 1*2 = 2,33,内积的特点,内积值没有界限不象概率值，要在(0,1)之间对长文档有利内积用于衡量有多少词项匹配成功，而不计算有多少词项匹配失败长文档包含大量独立词项，每个词项均多次出现，因此一般而言，和查询式中的词项匹

15、配成功的可能性就会比短文档大。,34,余弦(Cosine)相似度度量,余弦相似度计算两个向量的夹角余弦相似度是利用向量长度对内积进行归一化的结果,CosSim(Di, Q) =,D1 = 2T1 + 3T2 + 5T3 CosSim(D1 , Q) = 5 / 38 = 0.81 D2 = 3T1 + 7T2 + T3 CosSim(D2 , Q) = 1 / 59 = 0.13 Q = 0T1 + 0T2 + 2T3,用余弦计算，D1 比 D2 高6倍；用内积计算， D1 比 D2 高5倍,35,其它相似度度量方法,存在大量的其它相似度度量方法,Jaccard Coefficient:,

16、D1 = 2T1 + 3T2 + 5T3 Sim(D1 , Q) = 10 / (38+4-10) = 10/32 = 0.312 D2 = 3T1 + 7T2 + T3 Sim(D2 , Q) = 2 / (59+4-2) = 2/61 = 0.033 Q = 0T1 + 0T2 + 2T3,D1 比 D2 高9.5倍,36,示例,37,二值化的相似度度量,Inner Product: Cosine: Jaccard :,di and qk here are sets of keywords,di 和 qk here are vector,38,向量空间优点,术语权重的算法提高了检索的性能部分匹配的策略使得检索的结果文档集更接近用户的检索需求可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序,39,不足,标引词之间被认为是相互独立随着Web页面信息量的增大、Web格式的多样化，这种方法查询的结果往往会与用户真实的需求相差甚远，而且产生的无

展开阅读全文