信息检索评价指标PPT课件.ppt

资源描述

《信息检索评价指标PPT课件.ppt》由会员分享，可在线阅读，更多相关《信息检索评价指标PPT课件.ppt（45页珍藏版）》请在金锄头文库上搜索。

1、信息检索的评价指标高海燕2010114014 4 8 2020 1 信息检索的评价指标体系评价IR的意义IR评价研究的内容和程序如何评价效果评价指标分类单个查询的评价指标多个查询的评价指标 4 8 2020 2 评价IR的意义信息检索评价是对信息检索系统性能主要满足用户信息需求的能力进行评估的活动通过评估可以评价不同技术的优劣不同因素对系统的影响从而促进本领域研究水平的不断提高信息检索系统的目标是较少消耗情况下尽快全面返回准确的结果 4 8 2020 3 IR评价研究的内容效率 Efficiency 可以采用通常的评价方法时间开销空间开销响应速度效果 Effecti

2、veness 返回的文档中有多少相关文档所有相关文档中返回了多少返回得靠不靠前其他指标覆盖率 Coverage 访问量数据更新速度 4 8 2020 4 IR评价研究的程序一项完整的检索评价工作可分为以下5个步骤 1 确定评价范围和目标 2 选择评价方式 3 设计或者制定评价方案 4 实施评价方案 5 总结与评价结论的形成 4 8 2020 5 在评价和比较检索系统的检索性能需要以下条件一个文档集合C 系统将从该集合中按照查询要求检出相关文档一组用户查询要求 q1 q2 qn 每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集 R1 R2 Rn 该集合可由人工

3、方式构造一组评价指标这些指标反映系统的检索性能通过比较系统实际检出的结果文档集和标准的相关文档集对它们的相似性进行量化得到这些指标值 6 4 8 2020 6 如何评价效果相同的文档集合相同的查询主题集合相同的评价指标不同的检索系统进行比较 TheCranfieldExperiments CyrilW Cleverdon 1957 1968 上百篇文档集合 SMARTSystem GeraldSalton 1964 1988 数千篇文档集合 TREC TextRetrievalConference DonnaHarman 美国标准技术研究所 1992 上百万篇文档信息检索的

4、奥运会 4 8 2020 7 评价指标分类对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标通常用于对系统的评价求平均 4 8 2020 8 9 相关文本检索出的文本全部文本集合单个查询的评价指标 1 召回率 Recall 检出的相关文档数相关文档数也称为查全率 R 0 1 准确率 Precision 检出的相关文档数检出文档数也称为查准率 P 0 1 假设文本集中所有文献已进行了检查 4 8 2020 9 10 举例 ExampleRq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 通过某一个检索算法得到的排序结果 1

5、d123 6 d9 11 d382 d847 d51112 d483 d56 8 d12913 d2504 d69 d18714 d1135 d810 d25 15 d3 precision recall 100 10 66 20 50 30 40 40 33 50 4 8 2020 10 关于召回率的计算对于大规模语料集合列举每个查询的所有相关文档是不可能的事情因此不可能准确地计算召回率缓冲池 Pooling 方法对多个检索系统的TopN个结果组成的集合进行标注标注出的相关文档集合作为整个相关文档集合这种做法被验证是可行的在TREC会议中被广泛采用 4 8 2020 11 关

6、于召回率和正确率的讨论 2 虽然Precision和Recall都很重要但是不同的应用不用的用户可能会对两者的要求不一样因此实际应用中应该考虑这点垃圾邮件过滤宁愿漏掉一些垃圾邮件但是尽量少将正常邮件判定成垃圾邮件有些用户希望返回的结果全一点他有时间挑选有些用户希望返回结果准一点他不需要结果很全就能完成任务 4 8 2020 12 单个查询评价指标 3 P和R融合 F值召回率R和正确率P的调和平均值 ifP 0orR 0 thenF 0 else采用下式计算 E值召回率R和正确率P的加权平均值 b 1表示更重视P 4 8 2020 13 14 Example 1 d12

7、36 d911 d382 d847 d51112 d483 d56 8 d129 13 d2504 d69 d18714 d1135 d810 d2515 d3 33 3 33 3 25 66 6 20 100 4 8 2020 14 15 R Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数 1 d123 6 d9 2 d847 d5113 d56 8 d1294 d69 d1875 d810 d25 R 10and relevant 4R precision 4 10 0 4 1 d1232 d843 56 R 3and relevant 1R precisi

8、on 1 3 0 33 单个查询评价指标 4 引入序的作用 4 8 2020 15 单个查询评价指标 5 引入序的作用正确率召回率曲线 precisionversusrecallcurve 检索结果以排序方式排列用户不可能马上看到全部文档因此在用户观察的过程中正确率和召回率在不断变化 vary 可以求出在召回率分别为 0 10 20 30 90 100 上对应的正确率然后描出图像 4 8 2020 16 P R曲线的例子某个查询q的标准答案集合为 Rq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 某个IR系统对q的检索结果如下 4 8 2020

9、17 P R曲线的例子 4 8 2020 18 P R曲线的插值问题对于前面的例子假设Rq d3 d56 d129 3 d56R 0 33 P 0 33 8 d129R 0 66 P 0 25 15 d3R 1 P 0 2 不存在10 20 90 的召回率点而只存在33 3 66 7 100 三个召回率点在这种情况下需要利用存在的召回率点对不存在的召回率点进行插值 interpolate 对于t 如果不存在该召回率点则定义t 为从t 到 t 10 中最大的正确率值对于上例 0 10 20 30 上正确率为0 33 40 60 对应0 25 70 以上对应0 2 4 8 2020

10、19 P R曲线的优缺点优点简单直观既考虑了检索结果的覆盖度又考虑了检索结果的排序情况缺点单个查询的P R曲线虽然直观但是难以明确表示两个查询的检索结果的优劣 4 8 2020 20 单个查询评价指标 6 P R曲线的单一指标 BreakPoint P R曲线上P R的那个点这样可以直接进行单值比较11点平均正确率 11pointaverageprecision 在召回率分别为0 0 1 0 2 1 0的十一个点上的正确率求平均等价于插值的AP 4 8 2020 21 P R曲线中的Breakpoint Breakpoint 4 8 2020 22 单个查询评价指标 7 引入序的

11、作用平均正确率 AveragePrecision AP 对不同召回率点上的正确率进行平均未插值的AP 某个查询Q共有6个相关结果某系统排序返回了5篇相关文档其位置分别是第1 第2 第5 第10 第20位则AP 1 1 2 2 3 5 4 10 5 20 0 6插值的AP 在召回率分别为0 0 1 0 2 1 0的十一个点上的正确率求平均等价于11点平均只对返回的相关文档进行计算的AP AP 1 1 2 2 3 5 4 10 5 20 5 倾向那些快速返回结果的系统没有考虑召回率 4 8 2020 23 单个查询评价指标 8 不考虑召回率 Precision N 在第N个位置上的正确

12、率对于搜索引擎考虑到大部分作者只关注前一两页的结果 P 10 P 20对大规模搜索引擎非常有效NDCG 后面详细介绍 4 8 2020 24 单个查询评价指标 8 不考虑召回率 Bpref Binarypreference 2005年首次引入到TREC的Terabyte任务中只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下 bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下 bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数具体公式为 25 4 8 2020 25 举例下面举个例子来说明bpref的性能假设

13、检索结果集S为 S D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 其中D2 D5和D7是相关文档 D3和D4为未经判断的文档对这个例子来说 R 3 bpref 1 3 1 1 3 1 1 3 1 2 3 26 4 8 2020 26 多个查询评价指标 9 平均的求法宏平均 MacroAverage 对每个查询求出某个指标然后对这些指标进行算术平均微平均 MicroAverage 将所有查询视为一个查询将各种情况的文档总数求和然后进行指标的计算如 MicroPrecision 对所有查询检出的相关文档总数对所有查询检出的文档总数宏平均对所有查询一视同仁微平均受返回

14、相关文档数目比较大的查询影响 4 8 2020 27 多个查询评价指标 10 宏平均和微平均的例子两个查询q1 q2的标准答案数目分别为100个和50个某系统对q1检索出80个结果其中正确数目为40 系统对q2检索出30个结果其中正确数目为24 则 P1 40 80 0 5 R1 40 100 0 4P2 24 30 0 8 R2 24 50 0 48MacroP P1 P2 2 0 65MacroR R1 R2 2 0 44MicroP 40 24 80 30 0 58MicroR 40 24 100 50 0 43 4 8 2020 28 多个查询评价指标 11 MAP MeanAP

15、对所有查询的AP求宏平均多个查询下的查准率查全率曲线可通过计算其平均查准率得到公式如下 Nq为查询的数量 P r 是指查全率为r时的平均查准率 pi r 指查全率为r时的第i个查询的查准率 4 8 2020 29 面向用户的评价指标前面的指标都没有考虑用户因素而相关不相关由用户判定假定用户已知的相关文档集合为U 检索结果和U的交集为Ru 则可以定义覆盖率 Coverage C Ru U 表示系统找到的用户已知的相关文档比例假定检索结果中返回一些用户以前未知的相关文档Rk 则可以定义出新颖率 NoveltyRatio N Rk Ru Rk 表示系统返回的新相关文档的比例相对查全

16、率检索系统检索出的相关文档数量与用户期望得到的相关文档的数量的比例查全努力用户期望得到的相关文档与为了得到这些相关文档而在检索结果中审查文档数量的比率 4 8 2020 30 31 图示覆盖率和新颖率相关文献 R 结果集 A 用户已知的相关文献 U 检出的用户以前未知的相关文献 Ru 检出的用户已知的相关文献 Rk 4 8 2020 31 搜索引擎的性能评价研究及评价指标 1 搜索引擎性能评价指标 1 数据库规模与内容收录范围数据库内容更新频率重复率死链接率等 2 索引方法索引方式索引范围与深度等 3 检索功能基本检索功能和高级检索功能 4 检索结果处理排序方式显示内容格式后处理功能 5 分类功能分类类目体系的深度数量合理性等 6 用户界面界面布局联机帮助界面定制界面广告量 7 汉字处理词语切分多内码处理转换中英文混合检索 8 其他响应时间系统稳定性等 4 8 2020 32 搜索引擎的评价指标查全率与查准率研究的新进展相关性范畴范畴0主要包括重复链接死链接不相关链接范畴1主要包括技术上的相关链接意指检索仅在技术上满足

展开阅读全文