信息检索导论王斌PPT课件第9章

上传人:我*** 文档编号:134564630 上传时间:2020-06-06 格式:PPT 页数:84 大小:2.36MB
返回 下载 相关 举报
信息检索导论王斌PPT课件第9章_第1页
第1页 / 共84页
信息检索导论王斌PPT课件第9章_第2页
第2页 / 共84页
信息检索导论王斌PPT课件第9章_第3页
第3页 / 共84页
信息检索导论王斌PPT课件第9章_第4页
第4页 / 共84页
信息检索导论王斌PPT课件第9章_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《信息检索导论王斌PPT课件第9章》由会员分享,可在线阅读,更多相关《信息检索导论王斌PPT课件第9章(84页珍藏版)》请在金锄头文库上搜索。

1、1 第9讲相关反馈及查询扩展RelevanceFeedback QueryExpansion 2011 10 11 2 提纲 上一讲回顾动机相关反馈基础相关反馈详细介绍查询扩展 3 提纲 上一讲回顾动机相关反馈基础相关反馈详细介绍查询扩展 4 上一讲回顾 信息检索的评价方法不考虑序的评价方法 即基于集合 P R F考虑序的评价方法 P R曲线 MAP NDCG信息检索评测语料及会议检索结果的摘要 5 5 正确率 Precision 和召回率 Recall 正确率 Precision 简写为P 是返回文档中真正相关的比率召回率 Recall R 是返回结果中的相关文档占所有相关文档 包含返回的相

2、关文档和未返回的相关文档 的比率 6 6 正确率vs 召回率 P TP TP FP R TP TP FN 7 7 F允许正确率和召回率的折中where 0 1 b2 0 常用参数 balancedF b 1or 0 5实际上是正确率和召回率的调和平均数 harmonicmean 正确率和召回率相结合的指标 F值 8 8 正确率 召回率曲线 每个点对应topk上的结果 k 1 2 3 4 插值 红色 将来所有点上的最高结果插值的原理 如果正确率和召回率都升高 那么用户可能愿意浏览更多的结果 9 9 平均的11 点正确率 召回率曲线 计算每个召回率点 0 0 0 1 0 2 上的插值正确率对每个查

3、询都计算一遍在查询上求平均该曲线也是 评测上常用的指标之一 10 MAP 平均正确率 AveragePrecision AP 对不同召回率点上的正确率进行平均未插值的AP 某个查询Q共有6个相关结果 某系统排序返回了5篇相关文档 其位置分别是第1 第2 第5 第10 第20位 则AP 1 1 2 2 3 5 4 10 5 20 0 6多个查询的AP的平均值称为系统的MAP MeanAP MAP是IR领域使用最广泛的指标之一 11 NDCG BV BestVector 假定m个3 l个2 k个1 其他都是0 12 NDCG Normalized D CG 13 另一种NDCG的计算方法 加大相关

4、度本身的权重 原来是线性变化 现在是指数变化 相关度3 2 1在计算时用23 22 21据说搜索引擎公司常用这个公式 14 14 标准的评价会议 TREC TREC TextRetrievalConference TREC 美国标准技术研究所 NIST 组织TREC实际上包含了对多个任务的评测最出名的任务 TRECAdHoc任务 1992到1999年前8届会议中的标准任务TRECdisk包含189百万篇文档 主要是新闻报道 有450个信息需求由于人工标注的代价太大 所有没有完整的相关性判定然而 NIST采用了一种所谓结果缓冲 pooling 的办法来进行人工标注 首先将所有参测系统的前k个结果

5、放到一个缓冲池 pool 然后仅对缓冲池的文档进行标注 并认为所有的相关文档均来自该缓冲池中 15 15 动态摘要 给出一个或者多个 窗口 内的结果 snippet 这些窗口包含了查询词项的多次出现出现查询短语的snippet优先在一个小窗口内出现查询词项的snippet优先最终将所有snippet都显示出来作为摘要 16 16 一个动态摘要的例子 查询 newguineaeconomicdevelopment Snippets 加黑标识 thatwereextractedfromadocument Inrecentyears PapuaNewGuineahasfacedsevereecono

6、micdifficultiesandeconomicgrowthhasslowed partlyasaresultofweakgovernanceandcivilwar andpartlyasaresultofexternalfactorssuchastheBougainvillecivilwarwhichledtotheclosurein1989ofthePangunamine atthattimethemostimportantforeignexchangeearnerandcontributortoGovernmentfinances theAsianfinancialcrisis ad

7、eclineinthepricesofgoldandcopper andafallintheproductionofoil PNG seconomicdevelopmentrecordoverthepastfewyearsisevidencethatgovernanceissuesunderlymanyofthecountry sproblems Goodgovernance whichmaybedefinedasthetransparentandaccountablemanagementofhuman natural economicandfinancialresourcesforthepu

8、rposesofequitableandsustainabledevelopment flowsfromproperpublicsectormanagement efficientfiscalandaccountingmechanisms andawillingnesstomakeservicedeliveryapriorityinpractice 17 17 本讲内容 交互式相关反馈 Interactiverelevancefeedback 在初始检索结果的基础上 通过用户交互指定哪些文档相关或不相关 然后改进检索的结果最著名的相关反馈方法 Rocchio相关反馈查询扩展 Queryexpa

9、nsion 通过在查询中加入同义或者相关的词项来提高检索结果相关词项的来源 人工编辑的同义词词典 自动构造的同义词词典 查询日志等等 18 提纲 上一讲回顾动机相关反馈基础相关反馈详细介绍查询扩展 19 19 搜索中提高召回率的方法 本讲的主题 两种提高召回率的方法 相关反馈及查询扩展考虑查询q aircraft 某篇文档d包含 plane 但是不包含 aircraft 显然对于查询q 一个简单的IR系统不会返回文档d 即使d是和q最相关的文档我们试图改变这种做法 也就是说 我们会返回不包含查询词项的相关文档 20 20 关于召回率Recall 本讲当中会放松召回率的定义 即 在前几页 给用户

10、返回更多的相关文档这可能实际上会降低召回率 比如 将jaguar扩展为jaguar 美洲虎 一种汽车品牌 panthera 豹属 可能会去掉一些相关的文档 但是可能增加前几页返回给用户的相关文档数 21 21 提高召回率的方法 局部 local 方法 对用户查询进行局部的即时的分析主要的局部方法 相关反馈 relevancefeedback 第一部分全局 Global 方法 进行一次性的全局分析 比如分析整个文档集 来产生同 近义词词典 thesaurus利用该词典进行查询扩展第二部分 22 提纲 上一讲回顾动机相关反馈基础相关反馈详细介绍查询扩展 23 23 相关反馈的基本思想 用户提交一个

11、 简短的 查询搜索引擎返回一系列文档用户将部分返回文档标记为相关的 将部分文档标记为不相关的搜索引擎根据标记结果计算得到信息需求的一个新查询表示 当然我们希望该表示好于初始的查询表示搜索引擎对新查询进行处理 返回新结果新结果可望 理想上说 有更高的召回率 24 相关反馈分类 用户相关反馈或显式相关反馈 UserFeedbackorExplicitFeedback 用户显式参加交互过程隐式相关反馈 ImplicitFeedback 系统跟踪用户的行为来推测返回文档的相关性 从而进行反馈 伪相关反馈或盲相关反馈 PseudoFeedbackorBlindFeedback 没有用户参与 系统直接假设

12、返回文档的前k篇是相关的 然后进行反馈 25 25 相关反馈 相关反馈可以循环若干次下面将使用术语adhocretrieval来表示那种无相关反馈的常规检索将介绍三个不同的 用户 相关反馈的例子 26 26 例1 27 27 初始查询的结果 28 28 用户反馈 选择相关结果 29 29 相关反馈后再次检索的结果 30 30 向量空间的例子 查询 canine 1 Source FernandoD az 31 31 文档和查询 canine 的相似度 Source FernandoD az 32 32 用户反馈 选择相关文档 Source FernandoD az 33 33 相关反馈后的检索

13、结果 Source FernandoD az 34 例3 一个实际的例子 初始查询 newspacesatelliteapplications 初始查询的检索结果 r rank r 10 539NASAHasn tScrappedImagingSpectrometer 20 533NASAScratchesEnvironmentGearFromSatellitePlan30 528SciencePanelBacksNASASatellitePlan ButUrgesLaunchesofSmallerProbes40 526ANASASatelliteProjectAccomplishesInc

14、redibleFeat StayingWithinBudget50 525ScientistWhoExposedGlobalWarmingProposesSatellitesforClimateResearch60 524ReportProvidesSupportfortheCriticsOfUsingBigSatellitestoStudyClimate70 516ArianespaceReceivesSatelliteLaunchPactFromTelesatCanada 80 509TelecommunicationsTaleofTwoCompanies用户将一些文档标记为相关 35 3

15、5 基于相关反馈进行扩展后的查询 查询 newspacesatelliteapplications 36 基于扩展查询的检索结果 r 10 513NASAScratchesEnvironmentGearFromSatellitePlan 20 500NASAHasn tScrappedImagingSpectrometer30 493WhenthePentagonLaunchesaSecretSatellite SpaceSleuthsDoSomeSpyWorkofTheirOwn40 493NASAUses Warm SuperconductorsForFastCircuit 50 492T

16、elecommunicationsTaleofTwoCompanies60 491SovietsMayAdaptPartsofSS 20MissileForCommercialUse70 490GapingGap PentagonLagsinRaceToMatchtheSovietsInRocketLaunchers80 490RescueofSatelliteBySpaceAgencyToCost 90Million 37 提纲 上一讲回顾动机相关反馈基础相关反馈详细介绍查询扩展 38 38 相关反馈中的核心概念 质心 质心是的是一系列点的中心前面我们将文档表示成高维空间中的点因此 我们可以采用如下方式计算文档的质心其中D是一个文档集合 是文档d的的向量表示 39 39 质心的例子 40 40 Rocchio算法是向量空间模型中相关反馈的实现方式Rocchio算法选择使下式最大的查询Dr 相关文档集 Dnr 不相关文档集上述公式的意图是是将相关文档和不相关文档分得最开的向量 加入一些额外的假设 可以将上式改写为 Rocchio算法 41 41 Rocchio算法 最优查询向量为 即将

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号