《第八讲检索可视化和检索评价》由会员分享,可在线阅读,更多相关《第八讲检索可视化和检索评价(59页珍藏版)》请在金锄头文库上搜索。
1、第八讲 检索可视化和检索评价陆铭mingler.ccshu.org2内容提要l信息可视化研究l一般概念,在图书馆应用,可视化检索lhttp:/infovis.cs.vt.edu/cs5764/readings.htmll检索评价研究l信息检索评价的概念、研究历史、系统评价指标、用户评价指标、信息检索相关性模型31 信息可视化研究一般概念l看到什么了?4信息可视化研究的一般概念l什么是可视化?l 现代可视化技术是指运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术lVisualize: lInteractive - 互动式的lVisual r
2、epresentation 可视的lAmplify cognition 提高认知功能的5信息可视化研究的一般概念参考模型原始数据原始数据可视化结构视图数据信息可视化形式数据交换可视化映射视图变换人机交互任务6信息可视化研究的一般概念l信息可视化的三大支柱lThe power of Perception l感知的功能lThe power of Graphicsl图形的功力lThe power of Associationsl联想的潜力 7信息可视化研究的一般概念l信息可视化本质l寻求人机合作一种新的途径 l计算机将大量抽象的信息映射到图像上;l人们通过图像的结构,特征等来理解认识从而获得知识。l
3、让计算机与人各显神通l电脑的高速信息处理能力远远超过人脑;l人脑的识辨,理解能力是电脑所不可及的。8信息可视化研究可视化工具lhttp:/iv.slis.indiana.edu/9信息可视化研究的一般概念lTouchgraph工具10信息可视化应用研究l信息可视化的应用l数据分析lVisual inspection of data properties lDimensional deductionl海量数据的图形化表示lClustering and groupinglDiscovery of hidden internal structuresl实现与数据的可视化交互linteractive
4、online searching lbrowse large amount of information11信息可视化应用研究l在电子数字图书馆中的应用l 揭示信息的分布l 显示检索的结果l 为大量的信息分类l 帮助用户浏览l 提供个性化信息服务12信息可视化应用研究l为大量的信息分类l将整个数据库的内容用一个图表示出来l图书情报专业群英图 13信息可视化应用研究l帮助浏览14信息可视化应用研究l揭示信息的分布15信息可视化应用研究l显示检索的结果图书馆网络用户界面检索多媒体数据库数字图书馆16可视化检索l可视化检索的必要性l每个人的个人“信息空间”都在飞快地膨胀l个人信息空间现在是“搜索引擎
5、战”的前沿阵地lGoogle, Yahoo!, Microsoft 都提供免费的Desktop Search Solutionsl但问题是l单单检索已经不够!(Search is not Enough!)17可视化检索l可视化检索的必要性l检索界面单一,当前的检索系统没有根据不同的查询,提供有针对性的、相关性可以调整的机制l 界面死板l不能揭示相关文档之间的关系l 固有的关系被掩盖l忽略了检索结果选取时的人机交互作用l 无交互功能,或交互功能极弱18可视化检索l可视化检索的必要性l让用户做到“过目不忘”l只要看过的,就记下 Keep-It-Buttonl提供知识系统帮助组织,整理个人信息空间l
6、提供个人空间与其他信息空间的连接l强调“人机合作”l既要“自动化”,又要“个性化”19可视化检索l两个有影响的国际研讨会l1995年起,每年10月美国IEEE信息可视化国际研讨会l1997年起,每年7月英国信息可视化国际研讨会l国际上已经取得的成果l可视化理论模型研究l出现一批原型系统20可视化检索l可视化信息检索的设计原则l提供信息反馈l帮助用户掌握检索提问和信息检索之间的关系、命中文献之间的关系、命中文献和描述该文献的元数据之间的关系l减少工作记忆负担l允许用户返回临时放弃的检索策略,或者从一个检索策略跳到另一个检索策略l提供一般用户和专家用户的界面选择l采用“脚手架”(scaffoldi
7、ng)技术:向初学者提供简易界面,向有经验的用户提供高级界面21可视化检索l可视化检索技术l格式刷和连接,颜色联动l两个和更多窗口的连接l摇镜头l变换聚焦,变换景深l魔幻镜头l通过点击代表不同的检索对象,实现覆盖对象和未覆盖对象之间的切换22可视化检索l检索可视化模型l信息晶体(infoscrystal)l超级图书(superbook)l信息可视化引擎(NIRVE)23可视化检索信息晶体(infocrystal)24可视化检索超级图书(superbook)25可视化检索可视化引擎(NIRVE)26可视化DIALOG检索l将多次DIALOG检索结果一次性图形表示l用户从一个简单的检索开始l系统将
8、检索结果做多层次的分析l收集出现频率最高的主题词l分析主题词之间的关系l系统将分析结果图形户化表现在介面上l用户interacts with 主题词图表以达到更好的检索效果27Interactive Query Construction28KEPT Knowledge-Enabled Personalization Tools29Visual Thesaurus30Hyperbolic Tree31Highwire: http:/www.highwire.orgViewCitationMap32检索评价l信息检索评价的概念l研究历史l系统评价指标l用户评价指标l信息检索相关性模型33信息检索评
9、价的概念l信息检索的基本问题是评价相关性l以二值表述的相关性不能反映文献相关的程度l 一些文献提供的相关信息多一些,而另外一些提供的相关信息少一些,但不是无关l已经有一些研究按照相关性程度表述但是仅仅只有几个试验实际利用了不同的相关因素34信息检索评价的概念l在现代的大型数据库条件下,对一个检索提问响应的相关文献量动辄远远超过用户的实际需要l用户希望检索结果按照相关程度排序l系统设计人员和图书情报工作者也希望通过评价不同检索方法的效果,以揭示其区别35信息检索评价的类型l系统评价主要包括l功能评价,即评价一个系统是否完成了它所侧重的目标。l性能评价,主要指标是时间与空间的开销。(如:对数据检索
10、系统的评价)响应时间越短,占用的空间越少,系统性能越好l信息检索系统还包括其他一些度量指标。l这是由于用户的查询请求本身具有模糊性,检出的结果不一定是精确答案。需要依照与查询的相关度,对结果集合的准确度进行评价。 36信息检索评价的类型l检索性能评价l批处理模式l用户提交提问,并得到检索结果l产生检索结果集合的方法l交互模式l用户通过于系统一系列交互步骤提交信息需求l涉及的因素l用户因素l界面性能l系统的导引性能l过程的时间37检索评测基础l检索评测基础: 建立在测试参考集和一定的评价测度基础之上。l测试集由一个文档集、一组信息查询实例、对应于每个信息查询实例的一组相关文档(由专家提供)所组成
11、。l检索策略的评价l对一个给定检索策略S,对每个信息查询实例,评测由S检出的结果集合与由专家提供的相关文档集之间的相似性,量化这一指标。 38国内外检索评价历史l20世纪30年代,美国Bradford首先使用文献的主题相关概念(documents relevant to a subject)l20世纪50年代,美国Taube,Mooers,Perry和Luhn等首先实现了基于集合论和布尔代数的信息检索系统。当时对于相关性的假设是,检出的结果就是相关的,没有检出的就是不相关的。l稍后的相关性研究集中于非相关(non-relevance)。Taube等认为相关性主要受系统内在特征与操作影响,影响因
12、素包括分类表、索引、词汇的语义以及语法描述、文献组织以及检索提问的分析与检索策略等。此时的问题是没有注意文献选择过程,即没有考虑人的因素。(系统观)l1958年科学信息国际会议(ICSI)开始相关性研究中考虑了人的因素。Vickery在会议上提出将相关性分为主题相关和用户相关两类。主题相关性定义为描述检索问题的主题词和描述文献的主题词之间的匹配关系(系统观),用户相关性定义为用户检索相关信息的愿意程度(用户观)39国内外检索评价历史l1959-1980,以Saracevic发表的关于相关性研究的阶段性综述为标志,出现了大型实证研究和系列理论研究l实证研究:1957和1962年开始的美国科学基金
13、会(NSF)资助的Aslib Cranfield I和Cranfield II项目。 Cranfield I基于系统观,检索提问根据来源文献题目拟出,相关性判断由查询者将检索提问与文献号比对完成,不阅读文献 Cranfield II将实际检索提问提交给系统,提问者通过阅读检出的文摘判断相关性lCranfield 的意义找到了影响相关性判断的多种因素,为后续得到研究提供了测试数据首次采用查全率和查准率进行检索系统评估,同时发现两者之间存在的类反比关系(inverse relationship)引发了相关性研究的论争,Cranfield的每个方面都收到批评和反驳,从而导致试验从实验室环境到自然真实
14、的用户环境的转移40国内外检索评价历史l1967年Cuadra和Katter的研究l将相关性分为两类:一是用户兴趣主题与文献之间的关系,另一是系统输出和用户信息需求之间的关系l研究设计阶段列出五类38种可能影响相关判断的因素:文献类型(含主题和难易程度)、信息需求的陈述、判断者的经验背景和态度、判断条件(时间压力输出顺序文献量等)、表达方式l研究结论认为,影响相关判断有6个因素(变量):l焦点变量(focusing variables)用户判断相关性的标准l界限变量(delimiting variables)对试验者施以不同的指导导致的结果l情景变量(situation variables)环
15、境、时间、反馈等因素的影响l刺激材料变量(stimulus mat variables)文献的文体特征专业性等l个体差异变量(individual diff variables)用户知识水平和技能l量化尺度模式(available mode of quantitive expression)量化尺度的粗细41国内外检索评价历史l1967年Cuadra和Katter的研究l结论认为相关性判断应随着材料特征的不同而有所变化,也应随着用户状态(包括需求、态度、偏见、以及知识储备等)的不妥容而异。l但是它们认为用户的真实需求不可及,用户的信息需求与文献之间无法建立起直接的方法学上的联系。l如何将用户的
16、信息需求翻译成特定的可操作的表达式是非常紧迫的任务。42国内外检索评价历史lRees和Schultz的研究l目的在于构建测试研究相关性的判断过程的方法。研究设计的基本理念在于严格限定的环境(生物医学专业)中相关性评估是可记录和可分析的。l研究测试了40个影响相关性判断的变量,含主要变量(研究阶段、判断组、文献集以及文献描述等)和次要变量(用户的背景、专业经验以及研究经验等)l研究结果显示个体差异对于相关性判断的差异的影响很大。越是对主题的科学内涵熟悉的试验对象,被判断为相关的文献数量越少。因而建议相关性研究应引入认知方法43国内外检索评价历史l19561980年间的理论研究lMaron和Kuh
17、n的研究(基于概率实现文献的相关性排序)l提出用“相关量”作为相关性的量化值。l该值的条件概率由用户的查询、查询的主题域、查询表示及系统检出的文献等四项因素共同决定。相关量即用户以“查询的主题域”、形成“查询表示”,系统检出的文献能满足“用户查询”的概率。l如何得到这个概率是一个至今需要更多努力的问题 lGoffman的研究(基于集合论进行)l主要目的是探讨查询表达式与文献所载信息之间的相互关系l数学上作为测量值必须满足4个条件:必须大于等于零、必须是有序的、应该有绝对零点、满足完全相加的原则。但是如果将相关性定义为所载信息与查询表达式之间的关系,则相关性不可能成为测量值因为它违背测量值的后三
18、项条件。l认为应突破系统观的相关性定义,考虑检索出的文献集而不是文献本身。44国内外检索评价历史lGoffman和Newill的研究(流行病学理论)l将知识的传播类比于疾病的传播。核心概念是有效接触(effective contact)l如果想发挥信息传播的最大效益,从源到宿的信息必须是相关的,只有这样才能形成信宿的知识积累。以检索问题与文献间以及文献间关系决定相关性的条件概率(相关值)lCooper的研究(逻辑相关性理论)l聚焦于不同元素关系的本质,而不是简单地枚举影响相关性的因素。l基本观点是句子是承载信息的基本语言单位,信息需求以及检索系统中的数据可以通过陈述句加以表示。l一条语句s与另
19、一条语句相关r(或者是其逻辑非-r)的前提是s属于包括r的最小前提组M45国内外检索评价历史l20世纪90年代开始,是相关性研究的第二次高潮。这个阶段的研究大部分是面向用户展开的。lShamber的实证研究。l探讨信息源以及信息表现形式呈多样性的环境中,用户在其真实的信息查询以及信息利用活动中采用的相关性标准。l研究方法通过对每名实验对象的访谈进行录音,然后通过转录并结合内容分析,建立相关性标准l这些标准包括准确性、实时性、特异性、地理接近性、可靠性、可获取性、可验证性、简明性、动态性、表现形式的质量。46国内外检索评价历史lBarry的实证研究。l基于用户自发的信息需求,评判用户对真实的信息
20、需求所进行的相关性评估。l 实验对象包括18名教师及学生。通过对实验结果的内容分析找出了6类23种影响相关性判断的因素:文献内容、用户过去的经验和背景、信息环境中其他资源的关系、与文献的来源品质有关的因素、与文献实体部分有关的因素、与读者情景有关的因素。l结论显示包括用户的经验、背景、知识素养、信仰和个人喜好等的许多情景因素事实上起着相当重要的作用。47国内外检索评价历史lWang的实证研究l构建了文献选择的认知模型。l模型包括6个组件:文献信息元素、用户标准、文献价值、个人知识、决策标准、决策自身个人知识决策规则文献文献信息元素用户标准价值决策处理结合决定48国内外检索评价历史l理论研究综述
21、:lShamber1994年的综述:相关性的意义及其在信息行为中扮演的角色归纳了6类80个影响因素,偏重于定量的查全率和查准率,以及定性的效用(utility)和满意度(satisfaction)lSaracevic1994年的综述归纳了系统、通信、情景、心理四种模型,据此提出了第5种模型:交互式模型,它借用了人机交互研究种的阐释理论和语言学中的分层理论lMizzaro1998年的综述以4维框架描述了所有的相关性概念和模型:信息资源维、用户信息需求的描述维、时间维、主题任务和背景维l思辨性论述lBorlund的论述不能形成相关性定义的原因是相关性是一个多维的、认知的、动态的概念。通过重新引入情
22、景相关性,构建整体的相关性框架49国内外检索评价历史l纵观80年的研究历史l两个主要流派l面向系统和面向用户l两个研究高峰l60年79年代前期,80年代中后期至今l相关性是一个多维的、认知的、动态、可测度的概念,已经成为共识。l国外实证研究是最基本的研究手段,国内则鲜有开展,这是国内研究没有实质性成果的一个关键原因。50国内外检索评价历史l系统性l是目前信息检索系统的主要实现方式l主观性l依赖于人的判断,不是文献和信息的内在特征l认知性l最终依赖于人的知识和理解l情景性l与个体用户的信息问题紧密相连l多维性l受到多种因素的影响l动态性l随着时间的推移不断变化l可测度性l在某个特定的时间是可以观
23、察的51国内外检索评价研究的遗憾l面向系统的研究没有考虑用户层面l面向用户的研究没有考虑系统层面l融合两者研究,是将相关性研究引向深入的一大难题52检索性能评价l评价的类型l实验室评价和真实环境评价,两者不同。有时,结果出入也较大。l由于在实验室封闭环境下的评价具有可重复性,目前仍是主流。 l还有对交互查询进行评测,需要考查界面的设计、系统引导、会话持续时间等因素。53系统评价指标l传统的评价方法是批处理P-R方法RetrievedNot RetrievedRelevantRelevant RetrievedRelevant RejectedNot relevantIrrelevant Ret
24、rievedIrrelevant Rejected54查全率和查准率评价指标l对某个测试参考集,信息查询实例为I,I对应的相关文档集合为R。假设用某个检索策略对I进行处理后,得到一个结果集合A。令Ra表示R与A的交集。l查全率(Recall):检出的相关文档个数与相关文档集合总数的比值,即R=|Ra| / |R|l查准率(Precision):检出的相关文档个数 与检出文档总数的比值,即P=|Ra| / |A|RARa55查准率P= Thefractionoftheretrieveddocumentswhichisrelevant查全率R=Thefractionoftherelevantdoc
25、umentswhichhasbeenretrieved查全率和查准率评价指标collectionRelevant DocsIn Answer Set|Ra|Relevant Docs|R|Answer Set|A|56面向用户的相关性l信息观的相关性l判断主要基于信息问题与信息外在表现间的关系,判断的实质是判断者内在的知识储备lIngwersen的研究:4种关于性(aboutness)l作者关于性l相关性与作者撰著的文档中的内容相联系,因而可以直接采用文档中的词汇表示信息,是自动标引和匹配技术的理论基础l标引者关于性l相关性由标引者以控制词表描述作者自然语言的标引结果决定。理论上,这种相关性要
26、优于作者关于性的,实践中不一致性客观存在。l查询关于性l相关性由用户将查询七国求转换为查询表达式决定l用户关于性l相关性由标引者在标引时对用户的所知和所想的考虑57用户评价指标情景观的相关性l描述信息与用户信息问题情景之间的关系,认为只有用户才能完成有效的相关性判断,在主观性方面,比信息观的相关性前进了一步。lWilson的研究l判定情景相关的先决条件,必须先了解并描述信息需求者个人所处的情景。影响情景相关的要素l偏好,用户偏好与问题和答案息息相关l兴趣,用户所关心的事物多为其有兴趣的l时间,相关会随着时间、时代的改变有所不同l程度,相关应有程度上的不同l显著信息,可改变认知状态的价值大的信息l实用信息,58用户评价指标情景观的相关性lWilson的研究的影响l将相关的范围延伸到个人的知识状态,和当今的信息系统设计理念不谋而合l情景相关研究面临的最大问题是如何描述个人的认知状态,文字与文字指甲的演绎与归纳关系l需要研究者在认知心理学、学习理论、人类思维领域进行深入的研究,需要多学科的合作59Saracevic的归纳l相关性是由E评估的存在于C与D之间的B的AABCDE测评一致性文献查询表达式人程度效用文章查询请求判断者维度联系文本格式所利用的信息用户估计满意度参考观点请求者评价适合度提供的信息信息需求信息专家关系关系事实陈述匹配