信息检索基础理论－金锄头文库

资源描述

《信息检索基础理论》由会员分享，可在线阅读，更多相关《信息检索基础理论（86页珍藏版）》请在金锄头文库上搜索。

1、2 信息检索基础理论山东师范大学管理与经济学院本章要点信息检索的基本原理查全率查准率信息检索的相关性问题检索系统的评价检索系统/工具的结构及工作原理信息检索的主要数学模型2.1 信息检索的基本原理n通过对大量的、分散无序的文献信息进行搜集、加工、组织、存储，建立各种各样的检索系统，并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致，以便有效地获得和利用信息源。n存储是为了检索，检索又必须先进行存储。信息检索的基本原理信息集合匹配与选择特征化表示特征化表示需求集合课本P22-23，图2-1计算机信息检索原理示意图2.1.2 信息检索的相关性问题n定义：检索结

2、果与用户需求一致性程度n影响因素：用户信息需求的表达相关度判断的算法用户的主观判断n手检相关性、机检相关性n“相关性”(relevance)，是指信息检索系统针对用户的查询(query)从文档集中检出的文档与查询之间的一种匹配关系。现代信息检索以自然语言文本为对象，从严格意义上讲，文档与查询之间不再是数据库检索中的那种简单的匹配关系。但“匹配”这一术语一直在使用，这里也接受这种说法。手检相关性n依赖于用户智能知识结构、项目进展阶段、用户心理、认知行为、认知能力n提高手检相关性的方法：分析概念及学科属性；对检索工具的了解调整检索策略机检相关性n系统相关性 (1) 词频

3、方法 (2) 位置方法 (3) 引用率方法 (4) 点击率方法 (5) 分类或聚类n用户相关性(1) 基于词频统计的相关性n当用户输入检索词时，搜索引擎去找那些检索词在文章（网页）中出现频率较高的，位置较重要的，再加上一些对检索词本身常用程度的加权，最后排出一个结果来(检索结果页面) 。n早期的搜索引擎结果排序都是基于词频统计的，如Infoseek，Excite，Lycos等，它们基本上是沿用了网络时代之前学术界的研究成果，工业界的主要精力放在处理大访问量和大数据量上，对相关性排序没有突破。n词频统计其实根本没有利用任何跟网络有关的特性，是前网络时代的技术。(2) 位置方法n据

4、关键词在文中出现的位置来判定文件的相关性。认为关键词出现得越靠前，文件的相关程度就越高。 (3) 引用率方法n科学引文分析n超链分析百度 Google PangRank算法nWEB中各页面之间的链接关系是一项可以利用的重要信息。基于这种信息的技术被称为链接分析技术。绝大部分链接分析算法都有共同的出发点：更多地被其他页面链接的页面是质量更好的页面，并且从更重要的页面出发的链接有更大的权重。这个循环定义可以通过迭代算法巧妙打破。最著名的链接分析算法是Stanford大学提出并应用到Google搜索引擎中的PageRank算法以及IBM用于CLEVER搜索引擎的HITS算法。nHI

5、TS是IBM Almaden研究中心开发的另一种链接分析算法。它认为每个WEB页面都有被指向、作为权威（Authority）和指向其他页面作为资源中心（Hub）的两方面属性，其取值分别用A(p) 和H(p)表示。A(p)值为所有指向p的页面q的中心权重H（q）之和，同样，页面p的中心权重 H(p)值是所有p所指向的页面q的权威权重A(q) 之和，如下式： A(p)=H(qi) （其中qi是所有链接到p的页面） H(p)=A(qi)（其中qi是所有页面p所链接到的页面） n链接分析方法常常和基于内容的检索方法相结合。尽管很多基于较小的数据规模（数十G）网页数据的实验并不能证明链接分

6、析算法能够提高检索的性能。但是，很多人都相信，链接分析方法能够反映WEB社会的一些最自然的属性，应该能够在大规模真实环境下提高检索结果。Google的使用成功也增强了大家的信心砝码。n PageRank定义的是在WEB中页面的访问概率。访问概率越大的页面的PageRank值也越大。具体的计算公式是： Pr(t)=(1-d)/T+d(Pr(t1)/C(t1)+ Pr(t2)/C(t2)+Pr(tn)/C(tn)即，每个页面的PageRank (Pr)是无意中直接浏览到的概率和从上一页中继续访问的概率总和。其中，T是节点（页面）总数，C(t)是从页面 t指出的超链接总数，d称为阻

7、尼因子（damping factor），一般取值为0.85。概率Pr(t)反映了节点t的重要程度。(4) 点击率方法n“鼠标投票”代表：Direct Hit(5) 分类和聚类n分类：将一篇文章文本自动的识别出来，按照先验的类别进行匹配，确定。 n聚类：将一组的文章文本信息进行相识性的比较，将比较相识的文章文本信息归为同一组的技术。 n模糊聚类：没有先验的聚类因子，完全按照算法来进行识别和类大小，类的多少，类的误差等都是不确定因素。相关性判断方法的缺点分析n标引停留在字符层次苹果？n不能区分同形异义词公车？n不能联想自行车单车脚踏车相关性研究的热点n基于内容的理解n联想功能

8、及语义处理n相关反馈技术n提供信息导引功能2.1.3 信息检索的效果评价n评价指标体系查全率查准率漏检率误检率评价指标体系n查全率（检全率）n查准率（检准率）评价指标体系n漏检率n误检率影响检索效果的主要因素n存储检索n信息系统组织结构、检索系统功能问题n检索策略、检索方法问题提高检索效果的措施n熟悉各种信息检索系统特征n认真分析课题需求n灵活掌握检索方法和提高制定检索策略的能力网络信息资源检索效果评价n索引数据库n信息组织管理评价指标n信息检索功能评价指标n检索结果评价指标n检索界面的评价指标2.2 信息检索系统和工具n手工检索系统n穿孔卡片检索系统n缩微检索系统n光盘检索系统n计

9、算机信息检索系统n网络信息检索系统类型2.2.2 印刷型检索工具的类型和结构n文献检索工具目录题录索引文摘n事实和数据检索工具信息检索工具/系统的基本结构信息源用户用户接口创建数据库提问处理/ 检索匹配词汇管理工具DBDBDB标引处理信息选择与采集数据库生成数据库查询2.2.3 计算机检索系统的结构及工作原理n联机n光盘n网络n物理结构n逻辑结构(1) 信息选择与采集子系统 (2) 标引处理子系统 (3) 建库子系统 (4) 词表管理子系统 (5) 用户接口子系统 (6) 提问处理 / 检索匹配子系统（1）信息选择与采集子系统要求快速、经济、广泛、连续功能信息选择与采集子系统将决定

10、信息检索系统中数据库的类型及收录范围，是信息检索与利用的起点。工作方式对通常的计算机化检索系统来说，信息选择与采集主要由人工完成，但对于网络信息检索系统来说，则主要通过网络搜索机器人Robot 自动进行，并且可以定期更新。（2）标引处理子系统功能标引（indexing）是指对文献主题特征进行分析并使之显性化，以便为存储和检索这两个环节提供某种连接的文献加工操作。标引处理子系统将决定着数据库的标引深度（或网罗度）和检索点，并直接影响到系统的检索方式和检索功能。标引处理的类型人工赋词标引机器标引无标引（或全标引）标引要求不漏标全面不错标准确不滥标简练（3）建库子系统主要作

11、业内容包括：数据录入错误检查与处理数据格式转换在程序控制下自动完成。例如，支持联机检索的数据库一般要在主文档基础上再产生出主文档索引、倒排文档和词典文档。文档更新维护由程序控制，定期进行更新或上载数据。（4）词表管理子系统在文本信息检索系统，各种词表系统（如主题词表、后控词表等）通常作为一个重要成分而存在，词表中的词汇可以在用户检索信息时实现对检索效果的有效控制。词汇管理子系统有时也可独立存在。功能：管理维护系统中已有词表的结构、词汇，使它与标引、建库、检索等多个子系统相连接；支持用户的各种词汇查询操作；输出各种形式的词汇数据或词表产品等。类型：主题词表（Thesa

12、urus）（受控词汇检索系统）后控词表（post-controlled vocabulary）（自然语言检索系统）（5）用户接口子系统功能：用于人机交互，承担用户与系统之间的通讯任务。界面风格（5种）命令/指令语言（command language）菜单选择（menu selection）表格填充（form fill-in）直接操纵（direct manipulation）自然语言（natural language）接口技术（2种）：字符用户界面（CUI-Character User Interface）图形用户界面（GUI-Graphic User Interface） WIMP（

13、Window、Icon、 Menu、Pointing device）（6）提问处理 / 检索匹配子系统（技术核心）功能：负责处理用户输入的检索词或提问式，并将它们与数据库中存储的数据进行匹配运算，然后把运算结果返回给用户。主要操作流程：接收用户提问提问校验对提问式进行语法、格式、用词等的检查。提问加工对源提问式进行解释性或编译性的加工，以便机器处理。常用的加工方法有：表展开法，逆波兰法，准波兰法，范式法等。检索匹配将提问式与数据库记录进行匹配（精确匹配或局部匹配）。联机检索系统的工作原理n联机数据库存取号基本索引字段辅助索引字段n文档组织顺排文档倒排文档n检索流程光盘检索系

14、统的结构及工作原理nP43 网络检索系统的结构及工作原理一般结构：n自动索引程序n数据库n检索代理软件工作原理2.3 信息检索模型模型信息检索系统的形式化表示布尔检索模型向量空间模型概率检索模型其他信息检索模型信息检索的基本原理信息集合匹配与选择特征化表示特征化表示需求集合系统对信息集合与需求集合的匹配与选择系统对信息集合与需求集合的匹配与选择数学工具数学工具-数学模型数学模型什么是模型？n模型是采用数学工具，对现实世界某种事物或某种运动的抽象描述n面对相同的输入，模型的输出应该能够无限地逼近现实世界的输出，例如：天气的预测模型n模型和实现的区别：一个模型可以用多种方法实

15、现，例如，布尔模型可以倒排文档（inverted file ）实现，也可以用B-tree实现。信息检索的数学模型：运用数学的语言和工具，对IR中的信息及其处理过程加以翻译和抽象，表达为某种数学公式。信息检索模型决定于：n从什么样的视角去看待查询式和文档n基于什么样的理论去看待查询式和文档的关系n如何计算查询式和文档之间的相似度信息检索系统的形式化表示通常，可以把一个信息检索系统形式化地描述为一个四元组： System=（D，T，Q， )其中： D= d1，d2， d3 dn ，表示系统中经过标引的或直接采集的文献集合；n为数据库容量（n0） T= t1，t2，t3tm ，表示系

16、统所有可能存在的可检项的集合； Q= q1，q2，q3qk ，表示所有提问的集合；: QDR，称为映射函数或匹配函数， QD是提问集合Q与文献集合D的笛卡尔乘积，R为函数值的集合。信息检索经典模型1 布尔模型（1950s末）布尔逻辑集合论扩展布尔模型（统一模型）（1980s初）2 向量空间模型（VSMVector Space Model）模糊模型3 概率模型（1980s末）1 布尔模型n基于特征项的严格匹配模型。首先建立一个二值变量的集合，如果文本中出现了对应的特征项，则变量取“True”, 否则取 “False”。查询由特征项和逻辑运算符（ “AND”、“OR”、“NOT”）组成。文本查询的匹配规则遵循

展开阅读全文