信息存储与检索 教学课件 ppt 作者 王知津 第9章

上传人:E**** 文档编号:89503428 上传时间:2019-05-26 格式:PPT 页数:65 大小:815.50KB
返回 下载 相关 举报
信息存储与检索 教学课件 ppt 作者 王知津 第9章_第1页
第1页 / 共65页
信息存储与检索 教学课件 ppt 作者 王知津 第9章_第2页
第2页 / 共65页
信息存储与检索 教学课件 ppt 作者 王知津 第9章_第3页
第3页 / 共65页
信息存储与检索 教学课件 ppt 作者 王知津 第9章_第4页
第4页 / 共65页
信息存储与检索 教学课件 ppt 作者 王知津 第9章_第5页
第5页 / 共65页
点击查看更多>>
资源描述

《信息存储与检索 教学课件 ppt 作者 王知津 第9章》由会员分享,可在线阅读,更多相关《信息存储与检索 教学课件 ppt 作者 王知津 第9章(65页珍藏版)》请在金锄头文库上搜索。

1、第九章 信息检索评价与实验,,信息存储与检索,本章目录,9.1 引言 9.2 信息检索相关性理论 9.3 信息检索评价指标体系 9.4 信息检索评价的过程与方法 9.5 经典的信息检索评价实验 9.6 信息检索评价实验平台:TREC,,信息存储与检索,第一节 引言,信息检索系统评价的内容包括:资源的收录状况、数据的质量、检索的功能与效率、系统的功能以及检索结果的反馈形式等。,数据的评价主要从两个方面考察: 一是数据的录入质量,如数据的错误率,数据的结构是否合理,数据的完整性如何,数据的著录是否完备等; 二是数据的加工质量,如数据的加工深度,数据的标引质量,数据的分类是否合理等。,,信息存储与检

2、索,第一节 引言,检索的功能与效率的评价主要考察检索入口能否满足用户的需求,检索的组配是否丰富,查准率和查全率是否得当,检索的响应速度如何等。 检索功能和效率与检索算法有密切的关系,由于检索算法难以分辨出优劣,因此,可以通过检索界面、查全率和查准率以及检索响应时间等来判断检索的效率。,,信息存储与检索,第一节 引言,近年来,信息检索评价研究已从系统的输入方面的特性逐渐向检索者输入方面的特性转移,开始注重研究检索专家的特性(如教育背景、经验、个性等)与检索成功率之间的关系。有些评价者还考察了采用不同检索键所引起的变化,例如,分别用题名关键词、文摘关键词、叙词、原文中的词,或者分别用主题词与引文对

3、相同的课题进行检索时,检索结果之间的差异。,,信息存储与检索,第一节 引言,整体而言,信息检索评价活动范围扩大了,评价水平在不断提高,积累了大量有价值的试验或调查数据,初步揭示了检索系统及其各组成部分的运行机制及对系统性能的影响。不过需要指出的是,就目前状况而言,我们对用户需求相关性判断和系统行为的本质方面的探索还显得不足,有些评价方法还需要进一步完善,评价结果的解析和验证也有待进一步深入和加强。,,信息存储与检索,第二节 信息检索相关性理论,9.2.3 面向系统的相关性,3,3,9.2.4 面向用户的相关性,4,,信息存储与检索,9.2.1 相关性概念及其特征,(一)相关性的概念 相关性问题

4、的出现:1958年,著名学者B.C.Vickery在 ICSI(the International Conference for Scientific Information)上的两篇会议论文引发对“相关性”概念的最初讨论,“相关性”问题由此得到明确提出。 所谓“相关性判断”,是指信息检索中判断者在某一时刻对某种相关性的一种赋值操作。这个定义中包含了相关性判断的四个基本组成要素,分别是:相关性类型、判断者类型、判断时间和判断结果表达方式。,,信息存储与检索,9.2.1 相关性概念及其特征,相关性类型,指基于何种相关性进行判断; 判断者类型,指实施判断的主体,通常分为用户(user)与非用户(n

5、on-user)两大类,其中,用户指检索系统的真实用户,非用户则包括检索系统设计者、检索中介等在内的各类人员; 判断时间,很明显在不同的时间点,相关性判断的结果可能是不同的,所以判断时间也是相关性判断的基本组成要素; 判断结果的表达方式,指对相关性的赋值方法。,,信息存储与检索,9.2.1 相关性概念及其特征,(一)相关性的特征 1 关系 2 直觉 3 多维 4 动态,,信息存储与检索,9.2.2 影响相关性判断的变量,(一)文献与文献表示 文献与文献表示是检索的对象,对人的相关性判断有直接影响。人们比较了题名、题录、文摘和全文对相关性判断的不同影响,分析了文献的风格和内容专指性与相关性判断的

6、联系,发现:文献的主题内容是影响判断的最重要因素。文献内容愈具体,愈有利于相关性判断。文献的风格也可能影响判断。对同一文献,分别根据其题名、题录、文摘、全文来判断与特定提问的相关性,判断结果有差异。,,信息存储与检索,9.2.2 影响相关性判断的变量,(二)提问 提问促使文献作为答案输出、提问的专指性,判断者在不同研究阶段的知识状态以及提问的措辞等方面对判断均有影响。判断者对提问本身了解越多,对提问与答案的推断越深入,判断的一致性就越高。提问文本与相关文献文本之间似乎存在着较高的相似性和关联性,而在提问与非相关文献文本之间却未发现这种相似性。此外,判断者对提问本身知道得愈少,判断文献为相关的倾

7、向性就愈大。,,信息存储与检索,9.2.2 影响相关性判断的变量,(三)判断环境与条件 这里主要指判断时间、人们对相关性的解释及其它环境因素。一些实验发现:实验条件的变化可能导致判断的变化;判断环境中的压力(如时间紧迫感)越大,会导致相关率越高;对相关性的不同解释并不一定导致不同的相关率。,,信息存储与检索,9.2.2 影响相关性判断的变量,(四)判断表达模式 这个变量是指供判断者用来表达判断的方式或手段,如文献相关性的等级划分、分支设置方法等。一些实验发现:不同的相关性分级方法对判断差异影响很小:分级越多,判断越方便;问卷方式对表达判断较有利;对一组相关度较高的文献,及时判断者的背景不同,也

8、可望使判断达到显著的一致性。,,信息存储与检索,9.2.2 影响相关性判断的变量,(五)判断者的特性 这里主要指判断者的教育程度,特别是专业教育水平和身份。一些试验发现:判断者的专业知识越高深,相关性判断的一致性就越好;高级专业人员的判断一致度为0.55-0.75,情报服务人员为0.45-0.60;专业知识越少,相关性判断就越宽大;非专业人员(如图书情报人员)倾向于赋予较高的相关性比例;文献利用目的不同,可能会产生判断差异;判断相关不同于判断非相关,前者的一致率低于后者。,,信息存储与检索,9.2.3 面向系统的相关性,面向系统的相关性(system-oriented relevance)是把

9、信息检索定位于一种单方向的信息处理过程,系统根据用户的提问输出检索结果,用户是信息的接受者。这种理解把相关性看做是系统方面的属性,用户提出的查询请求只是被拿来与已经确定的文档相比较,二者之间匹配、比较的主要标准就是文档内容与提问的“主属性”(topicality)。因此,系统角度的相关性也被称为“主题相关”或“算法相关”。,,信息存储与检索,9.2.4 面向用户的相关性,面向用户的相关性(user-oriented relevance)主要观察并考虑用户对检索结果的反应,是系统检索结果向用户需求的再投射。随着检索系统日益广泛的应用及专家检索模式向最终用户检索模式的转变,检索评价研究开始更多地思

10、考相关性判断中人的因素和影响。事实上,信息检索不应是一个单向的处理过程,而是一个不断迭代、交互的人机对话过程。在检索性能评价过程中,脱离用户谈相关是不现实的,也是不可能的。一篇检出文档是否具有相关性,很大程度上取决于用户的主观判断,往往涉及用户的知识状态(state of knowledge),待处理和解决的问题、任务及所处的情境或者用户的目标、动机等众多因素。,,信息存储与检索,第三节 信息检索评价指标体系,9.3.3 费用效果指标,3,3,9.3.4 费用效益指标,4,9.3.5 Web检索系统性能评价存在的问题,5,,信息存储与检索,9.3.1系统性能指标,传统的信息检索效果评价,通常以

11、查全率、查准率和响应时间3个指标为主,,信息存储与检索,9.3.1系统性能指标,(一)查全率 当进行检索时,检索系统把文献分成两部分,部分是与检索策略相匹配的文献,并被检索出来,用户根据自己的判断将其分成相关的文献(命中)a和不相关的文献(噪音)b;另一部分是未能与检索策略相匹配的文献,根据判断也可将其分成相关文献(遗漏)c和不相关文献(正确地拒绝)d。一般情况下,检索出来的文献数量为(a+b),相对整个系统规模来说,是很小的,而未被检出的文献(c+d)数量则非常大。此时,查全率为:,,信息存储与检索,9.3.1系统性能指标,查全率是指从检索系统检出的与某课题相关的文献信息数量与检索系统中实际

12、与该课题相关的文献信息总量之比率。对于数据库检索系统,查全率为检索出的款目数与数据库中满足用户检索式需求的款目数之比;而对因特网信息检索来说,文献总量是很难计算的,甚至连估算都困难。要按传统的方式计算查全率,就要检验检索工具反馈的所有检索结果,而检索结果的数量有时是极大的。为此,相对查全率是一种可以实际操作的指标,但从其定义可以看出,人为因素的影响较大。,,信息存储与检索,9.3.1系统性能指标,(二)查准率 查准率(relevance ratio)可定义如下:当进行检索时,检索系统把文献分成两部分,一部分是与检索策略相匹配的文献,并被检索出来,用户根据自已的判断将其分成相关的文献(命中)a和

13、不相关的文献(噪音)b。,,信息存储与检索,9.3.1系统性能指标,同样,对因特网信息检索来说,真实查准率也是很难计算的。因为,对于命中结果数量太大的检索课题来说,相关性判断工作量极大,很难操作。为此可以定义一个相对查准率如下:,,信息存储与检索,9.3.1系统性能指标,(三)查全率与查准率的发展 (1) R查准率 R查准率就是在返回的结果排序结果的第R个位置计算查准率,产生排序结果的单值度量。文档集合中,假设与查询相关的文档总数为R,在按与查询相关程度输出检索结果的系统中,输出从高相关位到R相关位的检索结果称为R查准率(R-precision)。R查准率是一种评价按相关顺序输出检索结果有效性

14、的度量。R查准率方法对于观察一种算法在试验中每个查询的有效性是非常有用的。,,信息存储与检索,9.3.1系统性能指标,(2) F调和均值 排序结果中第j个文档的查全率与查准率的调和均值称为调和均值(F-measure)。 调和均值取值范围在0,1范围内,当查全率和查准率双方的值都大时,取的值大。取值越大表示性能越好。,,信息存储与检索,9.3.1系统性能指标,(3)E均值 均值(measure)允许用户指定是对查全率更感兴趣还是对查准率更感兴趣。E均值定义如下: B是表示重视查全率还是查准率的参数。b=1表明查全率和查准率是同等重要。b1表示与查全率相比,更看重查准率。b1表示与查准率相比更重

15、视查全率。E的取值范围是0,1,E取值越小表示性能越好。当比b=1时,E的值中用1减去的部分就是F的值。,,信息存储与检索,9.3.1系统性能指标,Ranking指标,,信息存储与检索,9.3.1系统性能指标,(四)响应时间 响应时间(response time)指在一次检索过程中,用户从开始向信息检索系统提问到系统输出检索结果的全部时间。 一般来说,响应时间越短,查全率和查准率越高,那么信息检索效果就越好。,,信息存储与检索,9.3.1系统性能指标,(五)常用的其它性能指标 收录范围(coverage)又称数据覆盖率,数据库收录范围指标被作为衡量查全率的一项辅助指标,用以揭示数据库的涵盖范围。它的计算公式为“给定时间内系统收录的文献总量”与“同期相关领域中的实际文献量”之比。一个信息检索系统收录范围直接影响到用户信息需求的满足程度。 新颖率(novel

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号