第二版 modern information retrieval Chapter 3 modeling

上传人:飞*** 文档编号:46313981 上传时间:2018-06-25 格式:PPT 页数:72 大小:4.66MB
返回 下载 相关 举报
第二版 modern information retrieval   Chapter 3    modeling_第1页
第1页 / 共72页
第二版 modern information retrieval   Chapter 3    modeling_第2页
第2页 / 共72页
第二版 modern information retrieval   Chapter 3    modeling_第3页
第3页 / 共72页
第二版 modern information retrieval   Chapter 3    modeling_第4页
第4页 / 共72页
第二版 modern information retrieval   Chapter 3    modeling_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《第二版 modern information retrieval Chapter 3 modeling》由会员分享,可在线阅读,更多相关《第二版 modern information retrieval Chapter 3 modeling(72页珍藏版)》请在金锄头文库上搜索。

1、Chapter 3 modelingoutlineuIntroduction to IR Models uBasic Concepts uThe Boolean Model uTerm Weighting uThe Vector Model uProbabilistic Model矩阵3.2.3Term Weighting变形词关联矩阵3.2.4TF-IDF Weights美国情报学家HP卢恩假设 词频计算网络度最佳围绕、绕过特性饮料定律 一个词在一个有相当长度的语篇中的等级 序号(该词在按出现次数排列的词表中的 位置,他称之为rank,简称r)与该词的出 现次数(他称为frequency,简

2、称f)的乘积 几乎是一个常数(constant,简称C)。用 公式表示,就是 r f = C 。(此处的C一般 认为取0.1) (IDF inverse document frequency)又称 反文档频率,是文档频率(DF document frequency)的倒数,也可通过对数等计算 方法获得。主要用于概念TF-IDF(term frequencyinverse document frequency) 中。 文档总数含有词的文档数TF-IDF TF-IDF是一种统计方法,用以评估一字词 对于一个文件集或一个语料库中的其中一 份文件的重要程度。字词的重要性随着它 在文件中出现的次数成正比

3、增加,但同时 会随着它在语料库中出现的频率成反比下 降。TF-IDF加权的各种形式常被搜寻引擎 应用,作为文件与用户查询之间相关程度 的度量或评级。 TFIDF的主要思想是:如果某个词或短语在 一篇文章中出现的频率TF高,并且在其他 文章中很少出现,则认为此词或者短语具 有很好的类别区分能力,适合用来分类。 TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文 档d中出现的频率。 IDF的主要思想是:如果包含词条t的文档越 少,也就是n越小,IDF越大,则说明词条t 具有很好的

4、类别区分能力。如果某一类文 档C中包含词条t的文档数为m,而其它类包 含t的文档总数为k,显然所有包含t的文档 数n=m+k,当m大的时候,n也大,按照 IDF公式得到的IDF的值会小,就说明该词 条t类别区分能力不强。 但是实际上,如果一个词条在一个类的文 档中频繁出现,则说明该词条能够很好代 表这个类的文本的特征,这样的词条应该 给它们赋予较高的权重,并选来作为该类 文本的特征词以区别与其它类文档。这就 是IDF的不足之处. 有很多不同的数学公式可以用来计算TF-IDF。该 例子以上述的数学公式来计算。词频 (TF) 是一词 语出现的次数除以该文件的总词语数。假如一篇 文件的总词语数是10

5、0个,而词语“母牛”出现了3 次,那么“母牛”一词在该文件中的词频就是 3/100=0.03。一个计算文件频率 (DF) 的方法是测 定有多少份文件出现过“母牛”一词,然后除以文 件集里包含的文件总数。所以,如果“母牛”一词 在1,000份文件出现过,而文件总数是10,000,000 份的话,其逆向文件频率就是 log(10,000,000 / 1,000)=4。最后的TF-IDF的分数为0.03 * 4=0.12 。TFIDF的理论依据 TFIDF算法是建立在这样一个假设之上的: 对区别文档最有意义的词语应该是那些在文档中 出现频率高,而在整个文档集合的其他文档中出 现频率少的词语,所以如果

6、特征空间坐标系取TF 词频作为测度,就可以体现同类文本的特点。另 外考虑到单词区别不同类别的能力,TFIDF法认 为一个单词出现的文本频数越小,它区别不同类 别文本的能力就越大。因此引入了逆文本频度IDF 的概念,以TF和IDF的乘积作为特征空间坐标系 的取值测度,并用它完成对权值TF的调整,调整 权值的目的在于突出重要单词,抑制次要单词。不足之处 但是在本质上IDF是一种试图抑制噪音的加权 ,并且单 纯地认为文本频数小的单词就越重要,文本频数大的单 词就越无用,显然这并不是完全正确的。IDF的简单结 构并不能有效地反映单词的重要程度和特征词的分布情 况,使其无法很好地完成对权值调整的功能,所

7、以 TFIDF法的精度并不是很高。 此外,在TFIDF算法中 并没有体现出单词的位置信息,对于Web文档而言,权 重的计算方法应该体现出HTML的结构特征。特征词在 不同的标记符中对文章内容的反映程度不同,其权重的 计算方法也应不同。因此应该对于处于网页不同位置的 特征词分别赋予不同的系数,然后乘以特征词的词频, 以提高文本表示的效果。 3.2.5Document Length Normalization标准单元向量3.2.6 The Vector Model在向量空间模型中,标引词Ki在文档Dj中的权重Wij是一个大 于0的非二值数。文档Dj可以看做是一个向量:Dj=(W1j,W2j,W3j

8、Wtj)其中,t是文档集中所有标引词的数目。用户查询中的标引词也是有权重的,设Wiq是用户检 索提问式(查询) Q的标引词Ki的权重,且Wiq0,则查 询向量Q被定义成:Q=(W1q,W2q,W3qWtq)。衡量文档和查询的相关度转化成计算文档向量和查询 向量之间的相似度。一般使用文档向量和查询向量之间的 夹角余弦值来计算它们之间的相似度。WijK1k2KnD1010D210.80.5Dn0.201文档向量空间的表示:文档D1(W11,W21,Wn1)查询Q(W1q,W2q,Wnq)文档D2(W12,W22,Wn2)特征项1特征项2特征项3文档向量空间模型:向量空间模型 将文献和用户查询均用t

9、维向量来表示,通 过计算两个向量之间夹角的余弦值来评价 其相似程度。 可以为该余弦值设定一个阀值,当相似度 大于该阀值时文献被检出。3.2.7 Probabilistic Model 给定一个用户查询,存在着一个文献集合 ,该集合只包含完全相关的文献而不包括 其他不相关的文献,我们把这个文献集合 称之为理想结果集。那么构造查询的过程 就可以看做是详细描述理想结果集属性的 过程。莫明其妙地 在第一次查询时并不知道Results的特征,只 能去估计R的特征来进行查询。第一次查询完成后,可以让用户判断一下检索到的文档哪些是相关 文档,根据用户的判断,可以更精确地估计R的特征。然后系统利用该信息重新定

10、义理想结果集合 的概率描述;重复以上操作,就会越来越接近真 正的结果文档集。 估计R的特征进行检索用户判断 概率论模型,亦称为二值独立检索模型。 1976年由Roberston和Sparck Jones提出的经 典概率模型。在概率的框架下解决IR的问 题。 如何描述这个理想结果集合?即:该理想 结果集合具有什么样的属性?3.2.8 Comparison of Classic Models3.6.1 Hypertext model(以下为信管班内容)3.6.1 Hypertext model3.6.1 Hypertext model3.6.1 Hypertext modelHomework 1.

11、What is the three classic models in information retrieval? 2.What is a taxonomy of information retrieval models? 3.What is definition and characters of ad hoc and filtering? 4.Please tell something about Boolean Model? 5.What is the hypertext?(信管) 6.How to avoid losing in the web?(信管) 7.what is tf-idf? pare the features of the classic models.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 其它考试类文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号