信息检索及发展－金锄头文库

资源描述

《信息检索及发展》由会员分享，可在线阅读，更多相关《信息检索及发展（58页珍藏版）》请在金锄头文库上搜索。

1、第7章信息检索及发展现代信息查询与利用课程组7.1信息检索概述7.2信息检索研究历史和现状7.3信息检索模型37.1.1 7.1.1 信息检索词汇（信息检索词汇（terms）检索的含义“检索就是查找”，这仅仅是一种狭义的解释。从广义的角度讲，检索包括“存贮”和“查找”两个过程。没有存贮就没有查找，存贮是为了查找，但查找必须有存贮，两者缺一不可。4信息检索词汇（信息检索词汇（terms）“检索”（Retrieval）一词是一个外来词，来源于英语“InformationRetrieval”（信息检索）Informationretrieval(IR)Informationaccess(obtain

2、)Informationsearch(lookfor)Informationsearching(lookfor)Informationseeking(focusonusers,active)locatehit7.1.2 信息检索的原理信息检索是指从任何信息集合中查出所需信息的活动、过程与方法。广义的信息检索还包括信息存贮，两者又往往合并称为“信息存贮与检索(Informationstorageandretrieval)。信息检索的原理信息存贮与检索信息检索的起源信息检索起源于图书馆的参考咨询和文摘索引工作，从19世纪下半叶首先开始发展，至20世纪40年代，索引和检索成已为图书馆独立的工具和用户

3、服务项目。随着1946年世界上第一台电子计算机问世，计算机技术逐步走进信息检索领域，并与信息检索理论紧密结合起来；脱机批量情报检索系统、联机实时情报检索系统87.1.37.1.3信息检索发展阶段信息检索发展阶段手工操作(manual)计算机化(computerized)网络化(networked)智能化(intelligentized)认知化(cognized)97.1.47.1.4主要检索系统类型主要检索系统类型联机检索(onlinesearch)脱机检索（offlinesearch）光盘检索（CDsearch）网络检索（Interne/Websearch）全球数字图书馆系统（digital

4、globalsystem）101 1、联机检索联机检索(online search)(online search) 通信网络联机检索中心检索终端数据库主机 WAN微机11检索终端局域网服务器光驱 LAN N微机光盘联机检索(CD online)12网络（网络（Internet）信息检索）信息检索Internet网络检索网络检索分布、开放、异种机；分布、开放、异种机；客户机客户机/服务器模式，服务器模式，浏览器浏览器/服务器模式服务器模式信息量大，无质量控制；信息量大，无质量控制；自动发掘、采集；自动发掘、采集；免费服务居多免费服务居多个人用户检索模式；个人用户检索模式；WIMP

5、（浏览（浏览+检索）；检索）；自然语言自然语言检索为主检索为主137.2信息检索研究历史和现状研究历史和现状1948年C.N.Mooers在其MIT硕士论文中第一次使用了“InformationRetrieval”这个术语196070年代在建立文摘检索系统中，产生了布尔模型(BooleanModel)、向量空间模型(VectorSpaceModel)和概率检索模型(ProbabilisticModel)147.2信息检索研究历史和现状研究历史和现状1980年代出现商用数据库检索系统：Dialog，ORBIT,MEDLINE1990s第一个网络搜索工具：1990年加拿大蒙特利尔大学开发的FTP搜

6、索工具Archie157.2信息检索研究历史和现状研究历史和现状第一个WEB搜索引擎：1994年美国CMU开发的Lycos1995斯坦福大学博士生开发Yahoo1998斯坦福大学博士生开发的Google，提出PageRank计算公式1998年基于语言模型的IR模型提出167.2信息检索研究历史和现状研究历史和现状1990年代推荐系统的出现：Ringo，Amazon，NetPerceptions文本分类和聚类的使用、信息抽取：Whizbang177.2信息检索研究历史和现状研究历史和现状2000s的重要事件文本检索会议TREC(TextRetrievalConference)的发展问答系统评测专

7、项Q/Atrack(QuestionAnsweringTrack)2001年，百度成立187.2信息检索研究历史和现状研究历史和现状2000s以来的其他重要事件多媒体IR，Image，Video，Audioandmusic跨语言IR，DARPATides，文本摘要，DUC评测197.3 检索模型三类7.3.1基于内容的信息检索模型7.3.2结构化模型7.3.3浏览型数学模型20检索模型分类信息检索模型检索模型浏览模型内容模型结构模型布尔模型向量模型概率模型非重叠链表模型邻近节点模型平坦模型结构导向模型超文本模型217.3.1 内容模型基于内容的信息检索模型有集合论模型布尔模型、模糊集合模型、扩

8、展布尔模型代数模型向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型227.3.1 内容模型基于内容的信息检索模型有概率模型经典概率论模型、推理网络模型、置信（信念）网络模型23检索模型的基本概念相关概念标引项(IndexTerm)文档表示成多个Term的集合通常用词来表示，但是也可以用其他语言单位来表示关键词(keywords)可以看成Term的一种标引项的权重(Weight)不同标引项作用是不同的通过权重加以区分24检索模型的基本概念模型要素F是一个框架,用以构建文档,查询以及它们之间关系的模型D是一个文档集合，通常由文档逻辑视图来表示。可以是一组索引词或关键词。既可以自动提取

9、，也可以是由人主观指定。25检索模型的基本概念模型要素Q是一个查询集合，是用户任务的表达，由查询需求的逻辑视图来表示。R(qi,dj)是一个排序函数，它给查询qi和文档dj之间的相关度赋予一个排序值即:IR模型由上述三个要素组成R(qi,dj)=F(D,Q)261、布尔模型一种简单的检索模型，它建立在经典的集合论和布尔代数的基础上271、布尔模型基本原理系统索引词集合中的每一个索引词在一篇文档中只有两个状态出现不出现检索提问式q由三种布尔运算符“and”、“or”、“not”连接索引词来构成28布尔模型集合的几种表示具有某种属性的事物的全体就构成一个集合，以A,B,C,表示构成集合的事物，

10、以a,b,c,表示该集合的元某个图书馆现存的所有图书有限集以S1a,b,c,d表示29布尔模型集合的几种表示所有的正整数无限集以S21,2,3,4,表示P(x)表示与元x有关的一个属性S3x|x是正偶数S4x|1x10为空集30布尔模型集合的表示集合间的关系x是A中的一个元，记作xAx不是A中的一个元，记作xA集合的图形表示空间空间E E 集合集合A A元x31布尔模型集合的运算并运算设A，B是两个集合，集合A与B的并运算是由A的一切元素和B的一切元素所组成的集合，记做AB，数学表示为：设A=a,b,c,d,e，B=c,d,x,y,z则AB=a,b,c,d,e,x,y,z即AB=x|xAxBA

11、B空间空间E32布尔模型集合的运算交运算设A，B是两个集合，包含A和B的所有公共元素的集合叫做A与B的交集，记做AB，数学表示为：设A=a,b,c,d,e，B=c,d,x,y,z则AB=c,d即AB=x|xAxB33布尔模型遵循两条基本规则每个索引词在一篇文档中只有两种状态：出现或不出现，对应逻辑值为 0 或 1 查询是由三种布尔逻辑运算符 and, or, not 连接索引词组成的布尔表达式34布尔模型集合的运算差运算设A，B是两个集合，A-B是由一切属于A但不属于B的元素所组成的集合，称为B在A中的余集，或者A与B的差，即设A=a,b,c,d,e，B=c,d,x,y,z则A-B=a,b

12、,e，B-A=x,y,z数学表示为A-B=x|xAxB35布尔模型定义用qdnf表示查询q的析取范式，qcc表示qdnf的任意合取分项，文献dj与查询q的相似度为如果，则表示文献dj与q相关，否则为不相关。sim(dj,q)为该模型的匹配函数(相似度)36布尔模型布尔模型优缺点优缺点优点简单而整齐自我保护功能，降低用户对搜索系统的期望，使自己不在责任方，检索结果不好的原因在于用户构造查询不好简单、易理解、简洁的形式化缺点它的检索策略是基于二值决策准则，即一个文档只被判断成相关的或不相关的，无任何等级变化当用布尔表达式表示精确语义的时候，很难将信息表达为一个布尔表达式准确匹配，信息需求的能力

13、表达不足布尔模型目前仍然是商业文档数据库的主流模型，并为一些新的领域提供了一个好的起点382、向量模型n维向量考虑从空间坐标系原点出发（其他向量可以平移到原点出发）的向量，其终点坐标为，我们称之为一个n维向量392、向量模型n维向量向量的运算加、减、倍数、内积40向量模型空间概念文献空间如果把每个标引词看作是一个向量，代表了空间的一个维，则由这些标引词集合定义了一个空间文献集合中的任一文献都可以表示为这个多维空间中的一个向量，这个空间就成为“文献空间”41向量模型空间概念标引词空间文献集合中的一篇文献可看成是标引词空间的一个维，空间中的一点代表一个标引词点从原点到该点的向量就是一个标引词向量它

14、在各个轴上的分量就是该标引词在各个轴所代表的相应文献中的权重42向量模型模型含义向量空间模型(VectorSpaceModel,VSM)由康奈尔大学Salton等人在上世纪70年代末提出并倡导的，原型系统为SMART*该模型采用了“部分匹配”的检索策略，即：出现部分索引词也可以出现在检索结果中，以克服布尔模型的缺点 * 可从ftp:/ftp.cs.cornell.edu/pub/smart/下载全部源码和相关语料43向量模型模型含义向量空间模型(VectorSpaceModel,VSM)通过给查询或文档中的索引词分配非二值权值来实现查询和文档都可转化成Term及其权重组成的向量表示，并可以看

15、成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度 * 可从ftp:/ftp.cs.cornell.edu/pub/smart/下载全部源码和相关语料44向量模型模型含义向量模型通过分派非二值权重给查询和文档中的索引项来实现检索目标这些权重用于计算系统中的每个文档与用户的查询请求的相似程度，向量模型通过对文档按照相似程度降序排列的方式，来实现文档与查询项的部分匹配结果中的文档排列顺序比通过布尔模型得到的结果要合理得多45向量模型模型含义在该模型中，与（ki，dj）相关联的权重wi,j是一个非二值数查询中的索引项也是有权重的，设wi,q是与（ki，q）相关联的权重，且wi,q0，则查询

16、向量Q被定义成Q=（w1,q，w2,q，w3,qwt,q）其中，t是系统中所有索引项的数目46向量模型模型含义文档dj的向量可以表示为wj=（w1,j，w2,j，w3,jwt,j），向量模型通过wj和Q的相关度来评价文档dj和查询q的相关度。这种关系可以用定量表示，一般使用两个向量之间的夹角余弦值来计算47向量模型模型含义变量wi称为权值，非负表示对应词项ki对于判断d和查询q相关性的重要程度（注意，这里的q是一般的，而d是具体的）q=变量vi的含义类似于wi两个基本问题：如何定义wi和vi如何计算R(d,q)48向量模型模型含义设wi和vi为对应的词分别在d和q中出现的次数，于是我们有了两个

17、m维向量，用夹角的cos表示“接近度”，即493、概率模型概率模型基本思想是：给定一个用户的查询，则有一个包含相关文档且不包含不相关文档的集合。设想这个文档集合是一个理想的结果集。507.3.3 概率模型基本假设给定一个查询q和文档集中一个文档dj，概率模型试图找出用户对其感兴趣的概率模型假设这个概率只是依赖于查询和文档的表示，进而模型假设文档集中存在一个子集，它使得总体相关概率在集合中的文档被认为是与查询相关的，不在集合中的则被认为是不相关的51概率模型贝叶斯定理贝叶斯定理词条的独立假设P(AB)=P(A)P(B)当且仅当A与B相互独立对一篇文档而言，若文档中的各个索引词相互独立，则有P(

18、dj)=P(k1)P(kt)52概率模型模型定义定义设索引词的权重为二值的，即：R表示已知的相关文档集（或最初的猜测集），用表示R的补集。表示文档dj与查询q相关的概率，表示文档dj与查询q不相关的概率。文档dj与查询q的相似度sim(dj,q)可以定义为：53概率模型优缺点优点理论上讲，文档按照其与目标集合的相关概率降序排列缺点需要最初将文档分为相关和不相关的集合所有权重都是二值的，模型中仍然假设索引项之间是相互独立的54比较布尔、向量和概率模型是三个传统的检索模型布尔模型是基于集合理论和布尔代数的一种简单检索模型向量模型采用非二值的索引项权重，把文档和查询用t维权重向量表示，计算这两个向量

19、之间的相似度来实现查询与文档的匹配概率模型是一种规范的模型，它试图预测给定查询的相关文档，排序原则根据文档与集合的相似度进行排序557.3.2 结构化文本检索模型结构化文档检索算法可以看作是一种信息检索算法，但排序机制并不健全使用“匹配点”来表示文本与用户查询相匹配的词串位置使用“区域”表示文本的块使用“节点”表示文档的结构化组元这样，一个节点是一个区域，具有文档的作者与用户所共知的、预定义的逻辑属性56结构化文本检索模型基于非重叠链表的模型是把文档中的整个文本划分为非重叠文本区域，并用链表连接起来因为有多种方法将文本分为非重叠的区域，所以，对于同一个文档，会产生多个链表这些链表清晰的记录了文

20、档的数据结构在相同链表中的文本区域没有重叠，而不同链表中的文本区域可能会重叠57结构化文本检索模型该模型是一种允许在相同文档上独立定义分层索引结构的模型，每个索引结构是一个严格的层次结构，其中每个结构组元称为节点，每个节点与一个文本区域相关，两个不同的层次结构可能涉及到两个重叠的文本区域针对不同层次结构的用户查询，所汇集的结果是由来自其中一个层次结构的节点组成587.3 浏览模型三种浏览模型：平坦模型，结构导向模型和超文本模型平坦模型把文档（集）看成是一个平坦的文档空间。由于是平坦的，这种模型的导航关系不清楚结构导向模型提供了层次性目录式的导航模型，是一种非平坦模型超文本模型是由节点和链组成的非线性的信息组织网络，能够为用户提供比上两种模型更多的信息，更方便的浏览，Web是它最成功的应用

展开阅读全文

信息检索及发展

最新文档