2 信息检索基础理论－金锄头文库

资源描述

《2 信息检索基础理论》由会员分享，可在线阅读，更多相关《2 信息检索基础理论（17页珍藏版）》请在金锄头文库上搜索。

1、2信息检索基础理论2.1信息检索的基本原理通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储，建立各种各样的检索系统，并通过一定的方法和手段，使存储与检索这两个过程所采用的特征标识达到一致，以便有效地获得和利用信息源。存储是为了检索，检索又必须先进行存储。信息存储与检索一是信息存储，即把大量分散的无序的信息集中起来，经过加工，使之有序化、系统化，成为有功能的检索工具或检索系统。二是信息检索，是指通过一定的方法和手段，使信息存储与检索两个过程所采用的特征和标识达到一致，以便有效地获取和利用文献.手工检索与计算机化检索的对比手工计算机信息集合文字型检索工具机读数据库需求集合文字型

2、检索课题形式化表示的提问式匹配选择眼看、主翻、脑子判断计算机程序信息检索的基本原理：信息集合一一匹配选择一需求集合1、需求集合需求集合涉及人类生存所必需的一切东西，其中包括信息需求。信息需求的结构与规律。信息需求是一种运动状态，并表现为三个层次结构。信息需求的心理行为规律包括Mooers定律、Zipf最少省力法则、马太效应和罗宾汉效应。学生信息需求特征。信息需求的识别与表达。信息需求的处理与加工。即采用特定的检索语言将信息需求表示出来，换言之，将检索问题或课题进行处理，抽取出主题内容或其他特征。经过这样处理的信息需求称之为Query。用户的信息需求是发展变化的，并且受着时、空的限制。这说明

3、，用户信息需求的状态是一种 “运动状态”，科亨(Kochen)曾经将用户的信息需求状态划分为如下图所示的三个层次。人类的社会信息(情报)需求 1.生活中的需求表现(1) 物质生活的信息需求(2) 精神、文化生活的信息需求(3 )个人安全的信息需求(4) 劳动和其他社会工作的信息需求(5) 社会交往与互助的信息需求(6) 适应社会的信息需求(7) 增长知识的信息需求(8) 创造活动的信息需求（9）实现某种生活目标的信息需求（10）产生某种兴趣的信息需求2. 职业工作中的需求表现（1）有关职业工作环境方面的信息需求（2）有关职业工作业务素质方面的信息需求（3）有关职业工作物质条件方面的信息需求（4

4、）有关职业工作社会关系方面的信息需求（5）有关职业工作业务环节的信息需求（6）有关职业工作目标方面的信息需求生理需求安全需求社交需求尊敬需求实现需求信息需求咱然信息需求、社会信息需求）活动（7）有关职业工作技能与知识方面的信息需求3. 社会化中的需求表现（1）关于基本生活和劳动技能方面的信息（2）关于社会生活目的、社会观与价值观的信息（3）关于社会的自然环境信息（4）关于认识社会地位与职业的信息（5）关于社会行为规范、纪律、法制等方面的信息（6）关于所有与之交往的社会其他成员的信息2、信息集合信息集合是指有关某一领域的文献或数据的集合。信息集合的复杂性。信息集合的序化。 Acces

5、s pointe每件信息都包含有其内部和外部的特征即信息的属性，这些特征可以用来作为检索的出发点和匹配的依据。我们称之为检索点。3、匹配与选择匹配与选择是一种机制，它负责把需求集合与信息集合进行相似性比较，然后根据一定的标准选出符合需要的信息。采用布尔模型，一个文档通过一个关键词条的集合来表示，这些词条来自一个词典。在查询与文档的匹配过程中，主要看该文档中的词条是否满足查询的条件。采用向量模型，计量文档向量与查询词串之间的相似度。采用概率论模型，将文档按照与查询的概率相关性的大小进行排序，排在最前面的文档是最有可能被获取的文档。此外，还可以采用神经网络模型、基于命题逻辑模型、聚类模型、

6、基于规则模型、模糊模型和语义模型等，来深入研究查询与文档之间的匹配过程。信息检索的本质是信息用户的需求和信息集合的比较与选择，即匹配（match）的过程。用户根据检索需求，对一定的信息集合采用一定的技术手段，根据一定的线索与准则找出相关的信息。计算机信息检索原理示意图IR系统组成：用户接口（输入查询、返回结果及反馈），用户两种任务：retrieval或browsing, IR 两种模式：pull（用户主动发起请求，在相对稳定之数据集合上）和push（用户自定义兴趣、系统发出流动数据给用户），文本处理（预处理查询和文本），查询处理（对文本处理之后的查询进一步处理得到查询的内部表示），文本

7、标引（Indexing得到Text Representation），搜索、排序、Logical View2.2信息检索的相关性问题定义：检索结果与用户需求一致性程度影响因素：用户信息需求的表达相关度判断的算法用户的主观判断手检相关性、机检相关性“相关性（relevance），是指信息检索系统针对用户的查询（query）从文档集中检出的文档与查询之间的一种匹配关系。现代信息检索以自然语言文本为对象，从严格意义上讲，文档与查询之间不再是数据库检索中的那种简单的匹配关系。但“匹配”这一术语一直在使用，这里也接受这种说法。手检相关性依赖于用户智能知识结构、项目进展阶段、用户心理、认知行为、认知能力

8、提高手检相关性的方法：分析概念及学科属性；对检索工具的了解调整检索策略机检相关性系统相关性（1）词频方法 (2)位置方法 (3)引用率方法 (4)点击率方法 (5)分类或聚类用户相关性搜索引擎三大定律第一定律相关性定律情报检索、信息检索或全文检索的相关性都是基于词频统计的。当用户输入检索词时，搜索引擎去找那些检索词在文章(网页)中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面)。第二定律人气质量定律解决了技术问题。科学引文索引机制的思路移植到网上就是谁的网页被链接次数多，那个网页就被认为是质量高，人气旺的。再加上相应的链接文字分

9、析，就可以用在搜索结果的排序上了。根据这一定律，搜索结果的相关性排序，并不完全依赖于词频统计，而是更多地依赖于超链分析。这条定律也成为李彦宏申请的美国专利。第三定律自信心定律根据这一定律，搜索结果的相关性排序，除了词频统计和超链分析之外，更注重的是竞价拍卖。谁对自己的网站有信心，谁就排在前面。有信心的表现就是愿意为这个排名付钱。(1) 基于词频统计的相关性当用户输入检索词时，搜索引擎去找那些检索词在文章(网页)中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面)。早期的搜索引擎结果排序都是基于词频统计的，如Infoseek，Exc

10、ite，Lycos等，它们基本上是沿用了网络时代之前学术界的研究成果，工业界的主要精力放在处理大访问量和大数据量上，对相关性排序没有突破。词频统计其实根本没有利用任何跟网络有关的特性，是前网络时代的技术。然而，网络时代的主要文献是以网页的形式存在的，而几乎每个人都可以随心所欲地在网上发表各种内容，词频相同的两个网页，质量相差可以很远，可是按照搜索引擎的第一定律，对这两个网页的排序应该是一样的。为了能够派在某些检索结果的前几位，许多网页内容的制作者绞尽脑汁，在其页面上堆砌关键词，搜索引擎对此防不胜防，苦不堪言。这种情况到了 1996 年开始有了改变。(2)位置方法根据关键词在文中出现的

11、位置来判定文件的相关性。认为关键词出现得越靠前，文件的相关程度就越高。(3)引用率方法科学引文分析超链分析百度Google PangRank算法科学引文索引的机制，说白了就是谁的论文被引用次数多，谁就被认为是权威，论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多，那个网页就被认为是质量高，人气旺。再加上相应的链接文字分析，就可以用在搜索结果的排序上了。这就引出了搜索引擎的第二定律：人气质量定律。根据这一定律，搜索结果的相关性排序，并不完全依赖于词频统计，而是更多地依赖于超链分析。但是，令一些专家更加头疼的是，网页评级算法使那些原本合法的、并且非常符合用户检索需求的网页，因

12、为很少被其他网页链接而被深深地埋在成千上万的搜索结果中。对于一个特定用户来说，某一个网页跟他的检索需求的相关度其实并不取决于这个网页是否流行。. “Google的搜索技术更多地是把注意力集中在Web的架构上，这样不利于挖掘网页深层次的价值，而含有特定主题的簇的概念则非常相似于生物界的群落，”Teoma的副总裁Paul Gardi说。在Teoma引擎向用户给出搜索结果之前，它会确定下来一系列与关键词相关的“群落”，并找到这个“群落”内的权威站点，然后根据这些权威站点对网页的引用频率确定每个页面的相关程度。Ask Jeeves就是因为放弃了原来的搜索技术提供者转而采用Teoma引擎，而使

13、其检索量在2002年和2003年每年都增加了 30 %。 WEB中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术。绝大部分链接分析算法都有共同的出发点：更多地被其他页面链接的页面是质量更好的页面，并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。最著名的链接分析算法是Stanford大学提出并应用到Google搜索引擎中的PageRank 算法以及IBM用于CLEVER搜索引擎的HIT S算法。. HITS是IBM Almaden研究中心开发的另一种链接分析算法。它认为每个WEB页面都有被指向、作为权威(Authorit

14、y)和指向其他页面作为资源中心(Hub)的两方面属性，其取值分别用A(p)和H(p)表示。A(p)值为所有指向p的页面q的中心权重H (q)之和，同样，页面p的中心权重H(p)值是所有p所指向的页面q的权威权重A(q)之和，如下式： A(p)=H(qi)(其中qi是所有链接到p的页面) H(p)=A(qi)(其中qi是所有页面p所链接到的页面)链接分析方法常常和基于内容的检索方法相结合。尽管很多基于较小的数据规模(数十G) 网页数据的实验并不能证明链接分析算法能够提高检索的性能。但是，很多人都相信，链接分析方法能够反映WEB社会的一些最自然的属性，应该能够在大规模真实环境下提高检索结果

15、。Google的使用成功也增强了大家的信心砝码。 PageRank定义的是在WEB中页面的访问概率。访问概率越大的页面的PageRank值也越大。具体的计算公式是：Pr(t) = (1-d)/T+d(Pr(t1)/C(t1)+ Pr(t2)/C(t2)+. + Pr(tn)/C(tn)即，每个页面的PageRank(Pr)是无意中直接浏览到的概率和从上一页中继续访问的概率总和。其中，T是节点(页面)总数，C(t)是从页面t指出的超链接总数，d称为阻尼因子 (damping factor)，一般取值为0.85。概率Pr(t)反映了节点t的重要程度。(4)点击率方法 “鼠标投票”代表：Direct Hit(5)分类和聚类分类：将一篇文章/文本自动的识别出来，按照先验的类别进行匹配，确定。聚类：将一组的文章/文本/信息进行相识性的比较，将比较相识的文章/文本/信息归为同一组的技术。模糊聚类：没有先验的聚类因子，完全按照算法来进行识别和类大小，类的多少，类的误差等都是不确定因素

展开阅读全文