信息检索研究现状行业二类

资源描述

《信息检索研究现状行业二类》由会员分享，可在线阅读，更多相关《信息检索研究现状行业二类（9页珍藏版）》请在金锄头文库上搜索。

1、引言信息检索的目标是“所得即所需”(What you Get Is What You Want)。一个具体的体现就是：不同的用户在使用同样查询的时候可能获得不同的结果；更进一步，同一个用户在不同时间或者不同地点发出同样的查询可能获得不同的结果。例如，同一个用户对“java”信息的需求：在工作时间希望得到有关编程语言java的相关文档，在休息时间希望得到有关java岛的旅游信息。为了达到这样的目的，检索系统需要充分地理解并掌握检索活动的主体（用户）和客体（资源）。面对这样的挑战，人们一方面在信息资源端做工作，提出了语义网（Semantic Web，也称为语义Web）的概念，使得检索系统能够更好地

2、理解内容，从而使检索结果更符合检索的条件；另一方面是在用户端做工作，通过各种手段获得用户的特征信息并进行用户建模，使用用户个性化信息来修正查询条件，从而改善检索结果。这两个方面的研究对达到“所得即所需”的目标起到了很大的推动作用。尽管语义网和用户建模技术极大地提高了检索系统的智能化、个性化水平，但是，人们也已经意识到，将资源和用户分开来考虑，难以达到“所得即所需”的目标。必须用系统的观点来看待信息检索活动，也就是说，用户检索的结果应该是特定“环境”下的结果，这个环境就是检索过程的上下文（context）。考虑了上下文的检索称为上下文信息检(Contextual Information Retr

3、ieval,CIR)。1上下文信息检索的概念Word Net是Princeton大学的心理学家、语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。在Word Net2.1中，上下文（context）被定义如下：）语言学上下文，即在一个语言单位附近的片断，用以帮助解释该语言单位。）环境，即一种情形或事件发生于其中的环境和背景。信息检索领域中，上下文最初是指“自然语言处理中的文档片段”，专门用于自然语言学中指代短语或句子在实际应用中的语言环境。它在自然语言处理中的价值体现在两个方面：一方面，在自然语言知识获取的过程中，上下文是知识获取的来源，在相应推理机制下，上下文本身就是知识；另一方

4、面，在自然语言处理的应用问题解决过程中，上下文扮演着解决问题所需信息和资源提供者的重要角色。从20世纪中期开始发展的信息检索系统，基本上是千人一面(one size fits all)，不同用户提出同一查询，得到的答案完全相同。这种模式带来的最大问题就是不够人性化，难以准确地满足不同用户的个性化需求。所以，人们最先关注的是和用户有关的上下文，即把用户有关的信息引入检索系统以满足用户的“所得即所需”。文献6于2000年总结的Web搜索中的上下文信息主要包括和用户查询意图以及用户查询表达相关的信息。文献7也指出上下文和个性化检索紧密相关，用来帮助提高用户检索体验，需要理解每一个用户查找信息的模式习

5、惯、用户目标，以及信息本身。然而，对信息检索系统而言，可利用的上下文并不仅限于此。2002年9月在Massachusetts Amherst大学智能信息检索中心（the Center for Intelligent Information Retrieval）召开的关于智能信息检索未来研究方向和发展的研讨会上，许多信息检索领域顶级研究者经过讨论给出了上下文信息检索定义8，即：定义（上下文信息检索，Contextual Information Retrieval,CIR)就是把有关用户、查询的上下文知识和信息检索技术融合在一起，统一组织在一个整体框架内，以向用户提供最适合用户需求的检索信息。随着

6、人们对CIR的关注，2003年第12届TREC（Text Retrieval Conference）国际会议第一次增加了HARD评测（High Accuracy Retrieval from Documents Track）。HARD评测的目的是考察用户及其相关信息对检索过程和检索结果评估的影响，即考察信息检索过程中上下文（如用户地域特点、文档风格等上下文信息）对信息检索性能的影响。2004年第届IRiX（Information Retrieval in Context）研讨会在第27届SIGIR上举行，并一举成为SIGIR2004上参会人数最多、最受人关注的研讨会。该研讨会的总目标是如何在信

7、息检索过程中考虑上下文因素以提高用户信息需求满意度。在该研讨会上，信息检索领域中的上下文定义如下。定义2（上下文，Context）信息检索中的上下文包括一切与检索查询相关的任务信息、交互历史信息、用户信息等明确给出或隐含在检索交互环境中的相关信息。从定义中可以看出，只要和用户检索过程相关的一切隐含或明确的信息都将是智能个性化信息检索的上下文，都可能用于优化检索系统，提高检索性能。因此，智能信息检索的上下文实际上是无所不在，无处不在。事实上，从20世纪90年代后期以来，围绕信息检索、信息推荐等信息服务系统的上下文的研究就层出不穷，有许多研究成果已经成功运用在实际系统中来帮助提高效率和性能，如针对

8、用户兴趣的相关反馈技术、针对Web文档链接内容的Page Rank技术、针对用户访问历史记录的Web日志分析技术等，并取得了一系列重要成果。这为人们进一步挖掘可用上下文以帮助提高检索效果树立了信心，指明了方向。在2007年欧洲信息检索大会上（European Conference On Information Retrieval,ECIR），Yahoo公司新兴搜索技术(Emerging Search Technology)部门的Andrei Broder指出上下文信息不仅在当前第三代搜索引擎实现满足“查询背后的需求”（the need behind the query）目标中起着关键作用，更在

9、未来第四代搜索引擎实现“上下文驱动的信息推送”（context driven information supply）目标中占据主导地位。2CIR中的上下文因素及其分类2.1学术界的观点Peter Ingwersen等人把信息检索系统中涉及的上下文因素抽象概括为六大因素，表示为一个上下文分层嵌套模型（Nested Model of context stratification for IR），如图所示。该模型作者认为，传统信息检索技术更多的是关注检索对象本身以及检索对象之间的特征，如词语、段落以及文档内容的超级链接等；如今，信息检索系统的上下文技术开始转向用户检索对话过程中（session-ti

10、me）可获取的上下文信息，如鼠标移动、打印保存等操作，即转向从交互式过程中获取用户的上下文信息。图1Peter Ingwersen等人提出的分层嵌套的上下文模型2005年IRiX（Information Retrieval in Context）研讨会上研究者则把信息检索中的上下文看作是包含了信息检索过程中涉及的各种因素的超类，把各种因素不同取值之间的组合看作情景（Situation），把每种因素的取值可能性看作是任务（Task）。上下文中包含的因素主要是个方面的，分别是系统、用户和环境。其中每一方面的因素又包含多种因素，如用户方面包括动机（Motivation）、知识（Knowledge）、

11、历史（History）和个体差异（Individual differences）等，系统方面包括资源（Resource）、检索模型（Retrieval Model）、设备（Device）、接口（Interface）等方面。2.2 产业界的观点Andrei Broder在2007年欧洲信息检索大会上强调了当前和未来上下文信息在信息检索过程中的重要性，指出当前第三代检索技术是依赖上下文信息满足“查询背后的需求”(the need behind the query)，并提出未来第四代检索技术需要实现“上下文驱动的信息推送”(context driven information supply)。同时，

12、他指出第三代搜索引擎中上下文中的决定因素（Context Determination）包括空间信息（如user local/target location）、查询信息（如previous queries）、个人信息（如user profile）、明确信息（如user choice of a vertical search）以及潜在信息（如use Google from China, use ）等种。除了上面学术界给出的阐述外，产业界给出了更为实用的基于上下文的信息检索的说明。他们把基于上下文的信息检索看作是由信息检索领域种技术构成的三维空间上的一个平面。这种技术保障了对上下文信息的获取和挖掘，

13、如图所示。这种技术分别是：1)智能的文本挖掘和数据挖掘，通过自动文本概念标注、模式发现和实体知识识别等技术发现各种可用的信息；2)灵活的内容构建技术，能从结构化或半结构化的数据源中发现独立的XML模式和相关关联；3)高性能的检索技术，面对超大规模的数据能进行迅速和可扩展的内容处理和检索。图产业界关于上下文检索的一种观点2.3 本文的分类观点纵观上面的讨论，Peter Ingwersen等人的看法层次分明，抽象意义明显；2005年IRiX研讨会上给出的结论比较系统、清楚自然，更便于在实现过程中区分和理解；Andrei Broder给出的上下文更符合Internet上搜索引擎环境下的应用；而产业界

14、则在技术层面上给出了挖掘应用上下文因素的相关分析。结合以上讨论和上下文信息在信息检索领域已有的研究成果，本文把人们当前比较关注的上下文因素按照信息检索的逻辑流程分为3个类别，如图3所示，分别是用户上下文、文档上下文和系统上下文。图3本文对检索系统中上下文因素的分类）用户上下文：检索系统中围绕用户的上下文信息，如用户的兴趣、爱好等，以及用户的查询日志、检索反馈行为等。用户上下文提供了理解用户需求的信息，是现在实现个性化检索及未来实现上下文驱动的信息推送服务的必要条件之一。为了便于详细解析和用户有关的上下文信息，本文把用户上下文分为用户静态上下文和检索任务上下文两个类别。用户静态上下文和用户的专业

15、背景、工作内容、爱好、经验、生活习惯、理解水平等因素密切相关；检索任务上下文包括检索任务的内容、特点、发生时间、作用范围、发生背景等方面，一方面反映用户本次信息需求的内容，另一方面反映用户检索需求的变化和迁移。用户静态上下文描述了用户检索需求的一种长期特点，是用户长期检索兴趣的反映；检索任务上下文描述了用户检索需求的一种短期特点，是用户短期检索需求的反映。）文档上下文：文档是指信息检索的目标对象。文档的内容特征、使用范围、产生的时间和地点以及其它元数据（meta data）信息等都属于文档上下文。文档内容特征包括文档的书写语言、术语化程度（专业性程度）、布局特点等因素。除了文档内容外，对Web

16、网页而言，超链分析（link analysis）、布局分析（block analysis）可以较准确地挖掘出其特征；对Pdf、Word等文档而言，元数据分析、布局分析能更有效地发现其特点。另外，整个文档集的组织结构、文档之间的关系等独立于单个文档之外的信息也属于文档上下文的范畴。）系统上下文：反映了信息检索系统实现过程中的相关特征，如采用的索引机制、检索模型、检索界面等。3 CIR研究现状3.1用户上下文3.1.1用户静态上下文用户静态上下文包括用户的专业背景、工作内容、爱好、经验、生活习惯、理解水平等各种和用户个体相关的许多因素，用户建模（user modeling）就是对用户上下文中的因素进行模型表示。当前，研究者比较关注对用户上下文中用户认知特点（cognitive characteristics）的建模，如兴趣、技能、偏好等。随着近年来语义We

展开阅读全文