信息检索评价指标PPT课件.ppt

上传人:优*** 文档编号:128172920 上传时间:2020-04-09 格式:PPT 页数:45 大小:810.50KB
返回 下载 相关 举报
信息检索评价指标PPT课件.ppt_第1页
第1页 / 共45页
信息检索评价指标PPT课件.ppt_第2页
第2页 / 共45页
信息检索评价指标PPT课件.ppt_第3页
第3页 / 共45页
信息检索评价指标PPT课件.ppt_第4页
第4页 / 共45页
信息检索评价指标PPT课件.ppt_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《信息检索评价指标PPT课件.ppt》由会员分享,可在线阅读,更多相关《信息检索评价指标PPT课件.ppt(45页珍藏版)》请在金锄头文库上搜索。

1、信息检索的评价指标 高海燕2010114014 4 8 2020 1 信息检索的评价指标体系 评价IR的意义IR评价研究的内容和程序如何评价效果评价指标分类单个查询的评价指标多个查询的评价指标 4 8 2020 2 评价IR的意义 信息检索评价是对信息检索系统性能 主要满足用户信息需求的能力 进行评估的活动 通过评估可以评价不同技术的优劣 不同因素对系统的影响 从而促进本领域研究水平的不断提高 信息检索系统的目标是较少消耗情况下尽快 全面返回准确的结果 4 8 2020 3 IR评价研究的内容 效率 Efficiency 可以采用通常的评价方法 时间开销 空间开销 响应速度效果 Effecti

2、veness 返回的文档中有多少相关文档 所有相关文档中返回了多少 返回得靠不靠前其他指标 覆盖率 Coverage 访问量 数据更新速度 4 8 2020 4 IR评价研究的程序 一项完整的检索评价工作可分为以下5个步骤 1 确定评价范围和目标 2 选择评价方式 3 设计或者制定评价方案 4 实施评价方案 5 总结与评价结论的形成 4 8 2020 5 在评价和比较检索系统的检索性能需要以下条件 一个文档集合C 系统将从该集合中按照查询要求检出相关文档一组用户查询要求 q1 q2 qn 每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集 R1 R2 Rn 该集合可由人工

3、方式构造一组评价指标 这些指标反映系统的检索性能 通过比较系统实际检出的结果文档集和标准的相关文档集 对它们的相似性进行量化 得到这些指标值 6 4 8 2020 6 如何评价效果 相同的文档集合 相同的查询主题集合 相同的评价指标 不同的检索系统进行比较 TheCranfieldExperiments CyrilW Cleverdon 1957 1968 上百篇文档集合 SMARTSystem GeraldSalton 1964 1988 数千篇文档集合 TREC TextRetrievalConference DonnaHarman 美国标准技术研究所 1992 上百万篇文档 信息检索的

4、奥运会 4 8 2020 7 评价指标分类 对单个查询进行评估的指标对单个查询得到一个结果对多个查询进行评估的指标 通常用于对系统的评价 求平均 4 8 2020 8 9 相关文本 检索出的文本 全部文本集合 单个查询的评价指标 1 召回率 Recall 检出的相关文档数 相关文档数 也称为查全率 R 0 1 准确率 Precision 检出的相关文档数 检出文档数 也称为查准率 P 0 1 假设 文本集中所有文献已进行了检查 4 8 2020 9 10 举例 ExampleRq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 通过某一个检索算法得到的排序结果 1

5、d123 6 d9 11 d382 d847 d51112 d483 d56 8 d12913 d2504 d69 d18714 d1135 d810 d25 15 d3 precision recall 100 10 66 20 50 30 40 40 33 50 4 8 2020 10 关于召回率的计算 对于大规模语料集合 列举每个查询的所有相关文档是不可能的事情 因此 不可能准确地计算召回率缓冲池 Pooling 方法 对多个检索系统的TopN个结果组成的集合进行标注 标注出的相关文档集合作为整个相关文档集合 这种做法被验证是可行的 在TREC会议中被广泛采用 4 8 2020 11 关

6、于召回率和正确率的讨论 2 虽然Precision和Recall都很重要 但是不同的应用 不用的用户可能会对两者的要求不一样 因此 实际应用中应该考虑这点 垃圾邮件过滤 宁愿漏掉一些垃圾邮件 但是尽量少将正常邮件判定成垃圾邮件 有些用户希望返回的结果全一点 他有时间挑选 有些用户希望返回结果准一点 他不需要结果很全就能完成任务 4 8 2020 12 单个查询评价指标 3 P和R融合 F值 召回率R和正确率P的调和平均值 ifP 0orR 0 thenF 0 else采用下式计算 E值 召回率R和正确率P的加权平均值 b 1表示更重视P 4 8 2020 13 14 Example 1 d12

7、36 d911 d382 d847 d51112 d483 d56 8 d129 13 d2504 d69 d18714 d1135 d810 d2515 d3 33 3 33 3 25 66 6 20 100 4 8 2020 14 15 R Precision计算序列中前R个位置文献的准确率R指与当前查询相关的文献总数 1 d123 6 d9 2 d847 d5113 d56 8 d1294 d69 d1875 d810 d25 R 10and relevant 4R precision 4 10 0 4 1 d1232 d843 56 R 3and relevant 1R precisi

8、on 1 3 0 33 单个查询评价指标 4 引入序的作用 4 8 2020 15 单个查询评价指标 5 引入序的作用 正确率 召回率曲线 precisionversusrecallcurve 检索结果以排序方式排列 用户不可能马上看到全部文档 因此 在用户观察的过程中 正确率和召回率在不断变化 vary 可以求出在召回率分别为 0 10 20 30 90 100 上对应的正确率 然后描出图像 4 8 2020 16 P R曲线的例子 某个查询q的标准答案集合为 Rq d3 d5 d9 d25 d39 d44 d56 d71 d89 d123 某个IR系统对q的检索结果如下 4 8 2020

9、17 P R曲线的例子 4 8 2020 18 P R曲线的插值问题 对于前面的例子 假设Rq d3 d56 d129 3 d56R 0 33 P 0 33 8 d129R 0 66 P 0 25 15 d3R 1 P 0 2 不存在10 20 90 的召回率点 而只存在33 3 66 7 100 三个召回率点 在这种情况下 需要利用存在的召回率点对不存在的召回率点进行插值 interpolate 对于t 如果不存在该召回率点 则定义t 为从t 到 t 10 中最大的正确率值 对于上例 0 10 20 30 上正确率为0 33 40 60 对应0 25 70 以上对应0 2 4 8 2020

10、19 P R曲线的优缺点 优点 简单直观 既考虑了检索结果的覆盖度 又考虑了检索结果的排序情况缺点 单个查询的P R曲线虽然直观 但是难以明确表示两个查询的检索结果的优劣 4 8 2020 20 单个查询评价指标 6 P R曲线的单一指标 BreakPoint P R曲线上P R的那个点这样可以直接进行单值比较11点平均正确率 11pointaverageprecision 在召回率分别为0 0 1 0 2 1 0的十一个点上的正确率求平均 等价于插值的AP 4 8 2020 21 P R曲线中的Breakpoint Breakpoint 4 8 2020 22 单个查询评价指标 7 引入序的

11、作用 平均正确率 AveragePrecision AP 对不同召回率点上的正确率进行平均未插值的AP 某个查询Q共有6个相关结果 某系统排序返回了5篇相关文档 其位置分别是第1 第2 第5 第10 第20位 则AP 1 1 2 2 3 5 4 10 5 20 0 6插值的AP 在召回率分别为0 0 1 0 2 1 0的十一个点上的正确率求平均 等价于11点平均只对返回的相关文档进行计算的AP AP 1 1 2 2 3 5 4 10 5 20 5 倾向那些快速返回结果的系统 没有考虑召回率 4 8 2020 23 单个查询评价指标 8 不考虑召回率 Precision N 在第N个位置上的正确

12、率 对于搜索引擎 考虑到大部分作者只关注前一 两页的结果 P 10 P 20对大规模搜索引擎非常有效NDCG 后面详细介绍 4 8 2020 24 单个查询评价指标 8 不考虑召回率 Bpref Binarypreference 2005年首次引入到TREC的Terabyte任务中只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下 bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下 bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数 具体公式为 25 4 8 2020 25 举例 下面举个例子来说明bpref的性能 假设

13、检索结果集S为 S D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 其中D2 D5和D7是相关文档 D3和D4为未经判断的文档 对这个例子来说 R 3 bpref 1 3 1 1 3 1 1 3 1 2 3 26 4 8 2020 26 多个查询评价指标 9 平均的求法 宏平均 MacroAverage 对每个查询求出某个指标 然后对这些指标进行算术平均微平均 MicroAverage 将所有查询视为一个查询 将各种情况的文档总数求和 然后进行指标的计算如 MicroPrecision 对所有查询检出的相关文档总数 对所有查询检出的文档总数 宏平均对所有查询一视同仁 微平均受返回

14、相关文档数目比较大的查询影响 4 8 2020 27 多个查询评价指标 10 宏平均和微平均的例子两个查询q1 q2的标准答案数目分别为100个和50个 某系统对q1检索出80个结果 其中正确数目为40 系统对q2检索出30个结果 其中正确数目为24 则 P1 40 80 0 5 R1 40 100 0 4P2 24 30 0 8 R2 24 50 0 48MacroP P1 P2 2 0 65MacroR R1 R2 2 0 44MicroP 40 24 80 30 0 58MicroR 40 24 100 50 0 43 4 8 2020 28 多个查询评价指标 11 MAP MeanAP

15、 对所有查询的AP求宏平均多个查询下的查准率 查全率曲线 可通过计算其平均查准率得到 公式如下 Nq为查询的数量 P r 是指查全率为r时的平均查准率 pi r 指查全率为r时的第i个查询的查准率 4 8 2020 29 面向用户的评价指标 前面的指标都没有考虑用户因素 而相关不相关由用户判定 假定用户已知的相关文档集合为U 检索结果和U的交集为Ru 则可以定义覆盖率 Coverage C Ru U 表示系统找到的用户已知的相关文档比例 假定检索结果中返回一些用户以前未知的相关文档Rk 则可以定义出新颖率 NoveltyRatio N Rk Ru Rk 表示系统返回的新相关文档的比例 相对查全

16、率 检索系统检索出的相关文档数量与用户期望得到的相关文档的数量的比例 查全努力 用户期望得到的相关文档与为了得到这些相关文档而在检索结果中审查文档数量的比率 4 8 2020 30 31 图示覆盖率和新颖率 相关文献 R 结果集 A 用户已知的相关文献 U 检出的用户以前未知的相关文献 Ru 检出的用户已知的相关文献 Rk 4 8 2020 31 搜索引擎的性能评价研究及评价指标 1 搜索引擎性能评价指标 1 数据库规模与内容 收录范围 数据库内容 更新频率 重复率 死链接率等 2 索引方法 索引方式 索引范围与深度等 3 检索功能 基本检索功能和高级检索功能 4 检索结果处理 排序方式 显示内容 格式 后处理功能 5 分类功能 分类类目体系的深度 数量 合理性等 6 用户界面 界面布局 联机帮助 界面定制 界面广告量 7 汉字处理 词语切分 多内码处理 转换 中英文混合检索 8 其他 响应时间 系统稳定性等 4 8 2020 32 搜索引擎的评价指标 查全率与查准率研究的新进展 相关性范畴范畴0主要包括重复链接 死链接 不相关链接范畴1主要包括技术上的相关链接 意指检索仅在技术上满足

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号