《信息检索评价》ppt课件

资源描述

《《信息检索评价》ppt课件》由会员分享，可在线阅读，更多相关《《信息检索评价》ppt课件（50页珍藏版）》请在金锄头文库上搜索。

1、1,信息检索的评价,哈工大计算机学院信息检索研究室 2007,2,评价,评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值，或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能（主要是其满足用户信息需求的能力）进行评估的活动从信息检索系统诞生以来，对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量,信息检索的评价,针对一个检索系统，可以从功能和性能两个方面对其进行分析评价功能评价可通过测试系统来判定是否支持某项功能，因此相对来说较容易性能评价对于检索系统的性能来说，除了系统的时间和空间因素之外，要求检索结果能够按照相关度进行排序,3,相关度,相关度

2、理论假定：对于一个给定的文档集合和一个用户查询，存在并且只存在一个与该查询相关的文档集合检索系统的目标就在于检出相关文档而排除不相关文档,4,5,相关性,相关性是一种主观评价是不是正确的主题输入：“和服”；输出：“咨询和服务” 由于分词错误，导致检索结果偏离主题是否满足用户特定的信息需求 (information need) 时效性，是不是新的信息输入：“美国总统是谁”；输出：“克林顿” 信息已经过时权威性，是否来自可靠的信息源,6,评价IR系统的困难,相关性不是二值评价，而是一个连续的量即使进行二值评价，很多时候也很难从人的立场上看，相关性是：主观的，依赖于特定用户的判断

3、和情景相关的，依赖于用户的需求认知的，依赖于人的认知和行为能力时变的，随着时间而变化,7,检索的评价,检索性能的评价检索结果的准确度检索任务批处理查询交互式查询实验室环境下主要是批处理查询，具有良好的可重复性和可扩展性,在评价和比较检索系统的检索性能需要以下条件：,一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求q1, q2, , qn。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集R1, R2, Rn。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们

4、的相似性进行量化，得到这些指标值,8,相关性判断,在早期的检索实验集合中, 相关性判断是全方位的,就是说, 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。由于TREC 的文献集合如此庞大, 全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合，并采用一种“pooling”的技术来完成。,9,“pooling”方法有以下两个假设,假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的 “pooling”技术的具体操作方法是：针对某一检索问题，所有参与其检索试验的系统分别给出各自检索结果中的前K个文档（例如K=100），将这些结果

5、文档汇集起来，得到一个可能相关的文档池“pool” 由检索评价专家进行人工判断，最终评判出每一文档的相关性,10,11,相关文本,检索出的文本,全部文本集合,准确率和召回率,召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设：文本集中所有文献已进行了检查,12,准确率和召回率的关系,1,13,举例,Example Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123 通过某一个检索算法得到的排序结果： 1. d123 6. d9 11. d38 2. d84 7. d511 12. d48 3.

6、d56 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25 15. d3 ,(precision, recall),(100%,10%),(66%,20%),(50%,30%),(40%,40%),(33%,50%),14,一个查询的11个标准查准率,11个标准查全率水平所对应的查准率: 0%, 10%, 20%, , 100%,0,20,40,60,80,100,120,20,40,60,80,100,120,interpolation,p r e c i s i o n,15,平均准确率,上述准确率召回率的值对应一个查询每个查询对应

7、不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能，对每个召回率水平下的准确率进行平均化处理，公式如下：,Nq: the number of queries used Pi(r): the precision at recall level r for the i-th query,多个查询下进行检索算法的比较,对多个查询，进行平均，有时该曲线也称为：查准率/查全率的值。如下为两个检索算法在多个查询下的查准率/查全率的值。第一个检索算法在低查全率下，其查准率较高。另一个检索算法在高查全率下，其查准率较高,17,适应性,合理估计需要了解集合的所有文献这两个指标相互关联，评

8、价不同方面，结合在一起形成单个测度更合适测的是批处理模式下查询集合性能，对现代信息检索系统，交互式是重要特征，对量化检索过程的性指标可能会更合适,新的评价指标,随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现单值概括,19,单值概括（1）,已检出的相关文献的平均准确率逐个考察检出新的相关文献，将准确率平均 Example 1. d123 (1) 6. d9 (0.5) 11. d38 2. d84 7. d511 12. d48 3. d56 (0.66) 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8

9、10. d25 (0.4) 15. d3 (0.3),(1+0.66+0.5+0.4+0.3)/5=0.57,20,单值概括（2）,R-Precision 计算序列中前R个位置文献的准确率 R指与当前查询相关的文献总数,1. d123 6. d9 2. d84 7. d511 3. d56 8. d129 4. d6 9. d187 5. d8 10. d25 ,R=10 and # relevant=4 R-precision=4/10=0.4,1. d123 2. d84 3. 56 ,R=3 and # relevant=1 R-precision=1/3=0.33,21,单值概括（3）

10、,准确率直方图多个查询的R-Precision测度用来比较两个算法的检索纪录 RPA/B=0:对于第i个查询，两个算法有相同的性能 RPA/B0:对于第i个查询，算法A有较好的性能 RPA/B0:对于第i个查询，算法B有较好的性能,22,单值概括（3-1）,0.0,0.5,1.0,1.5,-0.5,-1.0,-1.5,1,2,3,4,5,6,7,8,9,10,Query Number,2,8,23,单值概括（4）,概括统计表查询数检出的所有文献数量相关文献数应检出的相关文献数 ,评价指标的不足,前面提到的一些评价指标，如R-准确率，MAP，P10等，都只考虑经过pooling技术之

11、后判断的相关文档的排序对判断不相关文档与未经判断的文档的差别并没有考虑而目前随着互联网的发展，测试集越来越大，由于相关性判断还基本上是人工判断，因此建立完整的相关性判断变得越来越难,24,Bpref指标,只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下，bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下，bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为：,25,举例,下面举个例子来说明bpref的性能，假设检索结果集S为： S =D1 ,D2 ,D3 * ,D4 * ,D5 ,D6 ,D7 ,D

12、8 ,D9 ,D10 其中D2、D5 和D7是相关文档，D3 和D4为未经判断的文档。对这个例子来说， R=3; bpref= 1/3 (1 -1/3) + (1 -1/3) + (1 -2/3),26,单一相关文档检索的评价,对于搜索引擎系统来讲，由于没有一个搜索引擎系统能够保证搜集到所有的网页，所以召回率很难计算，因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候，用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务,27,RR排序倒数和MRR平均排序倒数,RR（Reciprocal

13、Ranking）是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况， RR值具体为1/r，其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档，那么RR值为0。,28,MRR（ Mean Reciprocal Ranking）平均排序倒数,MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询，分别得到每个查询的排序倒数，取平均即为MRR。计算公式如下：例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。然而RR评价是基于2元相关判断基础上的，因此RR与MRR都不能区分一个高相关性的文档与低相关性文档之间的区别

14、。,30,其它测度方法,调和平均值 R(j): the recall for the j-th document in the ranking P(j): the precision for the j-th document in the ranking,31,Example,1. d123 6. d9 11. d38 2. d84 7. d511 12. d48 3. d56 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25 15. d3 ,(33.3%,33.3%),(25%,66.6%),(20%,100%),32,其他测度方法

15、 (cont.),E指标允许用户根据需要调整精确率和召回率的比例,33,其他测度方法(cont.),面向用户的测度方法覆盖率：实际检出的相关文献中用户一致的相关文献所占比例新颖率：检出的相关文献中用户未知的相关文献所占的比例,34,图示覆盖率和新颖率,相关文献|R|,结果集|A|,用户已知的相关文献|U|,检出的用户以前未知的相关文献|Ru|,检出的用户已知的相关文献|Rk|,35,测试集 (Test Collections),组成要素文件集 (Document Set; Document Collection) 查询问题 (Query; Topic) 相关判断 (Relevant J

16、udgment) 用途设计与发展: 系统测试评估: 系统效能(Effectiveness)之测量比较: 不同系统与不同技术间之比较评比根据不同的目的而有不同的评比项目量化的测量准则，如Precision与Recall,国外的评测,TREC评测文本检索会议（Text Retrieval Conference，TREC）是信息检索( IR) 界为进行检索系统和用户评价而举行的活动, 它由美国国家标准技术协会(NIST) 和美国高级研究计划局(DARPA)（美国国防部）共同资助，开始于1992年。 NTCIR评测 NTCIR(NACSIS Test Collection for IR Systems)始于1998年，是由日本国立信息学研究所（National Institute of Informatics，简称NII）主办

展开阅读全文

《信息检索评价》ppt课件

最新文档