《词项Term加权问题细节》由会员分享,可在线阅读,更多相关《词项Term加权问题细节(31页珍藏版)》请在金锄头文库上搜索。
1、IR(继续)参考Jaime Carbonell讲稿和Modern Information Retrieval1Todays Topics词项(Term)加权问题细节Generalized Vector Space Model (GVSM)最大边界相关法(Maximal Marginal Relevance)Summarization as Passage Retrieval(基于片段提取的综述)2词项加权问题我们有了“共有词汇”假设:“文档”和“查询”等价于它们含有的词汇集合,它们的相关性可以完全由共有词汇的情况来决定向量空间模型最简单的:二元向量,只是刻画一个词项的出现与否稍复杂些:计数向量
2、,刻画一个词项在文档(查询)出现的次数一般的:我们可以考虑“以文档集合为背景,一个词项在一篇文档中的权重”3Term Weighting Revisited (1)Definitionswi “ith Term:” 词, 词根, 或者索引的短语,统称“词项”Dj “jth Document:” 文本索引的单位,例如,一篇网页,一个新闻报道,一篇文章,一个专利,一个法律案例,一本书,书的一章,等等。(根据需要确定这个基本单位)4Term Weighting Revisited (2)DefinitionsC,一个收藏(收集,Collection):一个索引文档的集合(例如,1998年人民日报的所
3、有文章,Web等)Tf(wi ,Dj)“Term Frequency:” ,词频,wi 在文档Dj中出现的次数。人们有时候通过除以该文档中最大的非停用词的TF对Tf进行规格化 Tf norm = Tf/ max_TF .5Term Weighting Revisited (3)DefinitionsDf(wi ,C) “document frequency, 文档频率:”,wi 至少在其中出现一次的文档的个数. Df通常,我们取规格化的结果,即除以C中的文档总数。IDf(wi, C)“Inverse Document Frequency”: Df(wi, C)/size(C)-1 . 多数情况
4、下人们用 log2(IDf),而不是直接的IDf。6Term Weighting Revisited (4)词项在词项在TfIDf意义下的权重(相对于一个文档)意义下的权重(相对于一个文档)一般来讲:TfIDf(wi, Dj, C) =F1(Tf(wi, Dj) * F2(IDf(wi, C)通常,F1 = 0.5 + log2(Tf), or Tf/Tfmaxmax通常,F2 = log2(IDf),“抑制函数”在Salton的SMART IR系统中:TfIDf(wi, Dj,C) =0.5 + 0.5Tf(wi, Dj/Tfmax(Dj) * log2(IDf(wi, C)7TFIDF的(
5、启发式)含义一个词项在一篇文档中的“重要性”和它在该文档中出现的次数成正比(局部)和它在文档集合中涉及文档的个数成反比(全局)重要性设计的目地区别两个文档对同一个查询的相关程度共有词(频)越多,则相关程度应该越高(同一性强)如果一个共有词在文档集合中出现得很普遍,则由它反映的相关程度应该越低(区分性差)8探个究竟K. Papineni, “Why Inverse Document Frequency,” Proc. North American Association for Computational Linguistics, 2001, pp.25-32.证明了IDF在某种距离函数意义下的
6、优化特性。9Term Weighting beyond TfIDf (1)概率模型概率模型传统概率方法(计算q和d相关的概率)R.R. Korfhage, Information Storage and Retrieval. John Wiley & Sons, Inc., New York, 1997G. Marchionini, Information Seeking in Electronic Environments. Cambridge University Press, New York, 1995Improves precision-recall slightly完整的统计语言学
7、模型(CMU)Improves precision-recall more significantly概率模型的共同缺点是计算效率不够高10Term Weighting beyond TfIDf (2)神经网络神经网络理论上有吸引力不幸的是,基本谈不上什么可扩展性(规模不能大)模糊集合模糊集合研究还不够深入,也会有扩展性的困难11Term Weighting beyond TfIDf (3)自然语言分析法自然语言分析法首先分析和理解Ds & Q采用某种基于自然语言理解的IR理论,从d中获取和q相关的子集一般来讲,自然语言理解依然是一个尚待解决的问题即使我们能做,还有一个可扩展性问题到现在为止,
8、自然语言理解的方法只在很有限的领域对IR有所改善。12Generalized Vector Space Model (1)原理原理通过其在多个文档中出现的模式( occurrence patterns )来定义词项对查询中的词项也同样定义相似度的计算基于对d和q中重叠的模式来进行13Generalized Vector Space Model (2)好处好处自动包含了部分相似的效果如果“heart disease”,“stroke”和“ventricular”共同出现在许多文档中,那么即使查询只包含其中一个,则包含其他几个的文档也会得一些分,和它们的文档“共生率”成一定比例。不需要做查询扩展或
9、者相关性反馈14Generalized Vector Space Model (3)不利因素不利因素计算开销较大效果 = “向量空间 + Q扩展”的效果15GVSM的具体实施 (1)将文档集合表达为一个向量:Let C = D1, D2, ., Dm 将每一个词项按照其在文档集合上的分布也表达成一个向量:Let vec(ti)= Tf(ti, D1), Tf(ti, D2 ), ., Tf(ti, Dm )定义词项之间的相似度:sim(ti, tj) = cos(vec(ti), vec(tj)这样,经常同时出现的词,例如“Arafat”和“PLO”,“北大”和“创建一流”等就会较高的相似度(
10、near-synonyms,其实是共生词)16By the way Synonymy,同义词,影响recallPolysemy,多义词,影响precision17query-document的相似度计算相应变化,sim(q,d) 不再是q和d的向量点乘,而是用上述“词项-词项”相似度的某个函数。例如,对q的每一个词项,分别得到它和d中词项的最大相似度,将这些最大相似度加起来得q和d的相似度:sim(q,d) = imaxj(sim(tqi, tdj)通常也以q和d的长度为基础做规格化:simnorm(Q, D) =GVSM, How it Works (2)18GVSM, How it Wor
11、ks (3)主要问题:主要问题:需要较大的计算量 (sparse = dense)主要好处:主要好处:自动完成了通过语料的term expansion19对于单纯追求相关性的一种批评(1)IR Maximizes Relevanceprecision and recall是关于相关性的度量忽略了所获取文档的质量问题(高相关不一定是高质量的)20对于单纯追求相关性的批评(2)其他重要的因素其他重要的因素信息的新颖性novelty, 时新性timeliness, freshness,合适性appropriateness, 有效性validity, 可理解性comprehensibility, 强度
12、density,.?信息获取,我们其实是要最大化:P(R(f i , ., fn ) | Q & C & U & H)其中 Q = 查询,C = 文档集合,U = 用户背景,H = 交互历史,fi = 某种因素.but we dont yet know how. Darn.21最大边界相关Maximal Marginal Relevance一种粗浅的近似:novelty = minimal-redundancy加权线性组合,重新确定文档序值:(redundancy = cost, relevance = benefit)自由调整参数:k and 22Maximal Marginal Relev
13、ance (2)MMR(Q, C, R) = Arg maxkdi in Csim(Q, di) - (1-)maxdj in R (sim(di, dj)Q, 查询C, 所有文档的集合R, 已得到的一个以相关度为基础的初始集合Arg maxk*,给出集合中k个最大元素的索引23Maximal Marginal Relevance (MMR) (3)利用利用MMR进行文档进行文档重定序重定序的一种计算方法的一种计算方法1. 用其他常用IR方法取得前K个文档记 Dr = IR(C, Q, K)2. 选max sim(di Dr, Q)作为第一个文档,即让Ranked = ,(用这记号表示有序集合
14、)3. Let Dr = Drdi,从中去掉这个元素4. While Dr is not empty, do:a. Find di with max MMR(Q, Dr, Ranked)b. Let Ranked = Ranked di ,(后续追加操作)c. Let Dr = Drdi24MMR Ranking vs Standard IRquerydocumentsMMRIR controls spiral curl25Maximal Marginal Relevance (MMR) (4)应用:应用:对从IR引擎中获得的文档重新定序在自动生成综述(summary)的应用中对要包含的片段(
15、passage)的定序。一篇文章可能有近似的句子或段落,但综述中不宜有。26文档综述简要综述(综述(summarization)的类型)的类型任务服务于查询系统(focused)和查询无关(generic)提示性综述indicative, 用于过滤 (这文章我还需要读吗?)对搜索引擎的结果进行过滤简短摘要abstract内容性综述contentful, 用于代替阅读全文帮助那些很忙的人全面综述executive summary27Document Summarization in a Nutshell (2)其他方向其他方向单篇文章还是多篇文章?不同体裁的自适应,还是一种统一的规格?一种语言还
16、是跨语言?线性综述还是超链结构?仅文本还是多媒体?.28以片段提取为基础的综述(1)查询驱动的综述:查询驱动的综述:1.将文档分成片段e.g, sentences, paragraphs, FAQ-pairs, .2.用查询来提取最相关的片段,或者考虑 MMR来避免冗余。3.将提取的片段装配成综述。29Summarization as Passage Retrieval (2)一般性综述一般性综述1.用标题或者最高Tf-IDF的几个词项作为查询。2.参照查询驱动的方法继续。30Summarization as Passage Retrieval (3)多文档的综述多文档的综述1.将文档聚类为内容相关的组2.对于每一组,将文档分成片段,并记住每个片段的来源文档3.利用MMR提取最相关,非冗余的片段(对多文档的情况,MMR特别有必要)4.对每一个聚类组装配一个综述31