信息检索InformationRetrievalIR

上传人:人*** 文档编号:568523078 上传时间:2024-07-25 格式:PPT 页数:37 大小:259KB
返回 下载 相关 举报
信息检索InformationRetrievalIR_第1页
第1页 / 共37页
信息检索InformationRetrievalIR_第2页
第2页 / 共37页
信息检索InformationRetrievalIR_第3页
第3页 / 共37页
信息检索InformationRetrievalIR_第4页
第4页 / 共37页
信息检索InformationRetrievalIR_第5页
第5页 / 共37页
点击查看更多>>
资源描述

《信息检索InformationRetrievalIR》由会员分享,可在线阅读,更多相关《信息检索InformationRetrievalIR(37页珍藏版)》请在金锄头文库上搜索。

1、信息检索InformationRetrieval(IR)第一章概述Introduction2007-092007-121第一章简介n信息检索IR定义及相关概念nIR和相关领域的关系nIR系统的建立nIR系统的评估nIR评价试验平台TRECn本课主要内容2IR抽象图n目的目的=在一个大的文档集合中找到和所需的信息相关的文档文档集合所需信息询问答案列表信息检索系统查找3IR定义n信信息息检检索索Information Information RetrievalRetrieval,IRIR,是是指指将将信信息息按按一一定定的的方方式式组组织织和和存存储储起起来来,并并利利用用一一定定的的检检索索算算

2、法法,借借助助于于特特定定的的检检索索工工具具、根根据据用用户户的的需需要要从从结结构化或非结构化的数据中获取有关信息的过程。构化或非结构化的数据中获取有关信息的过程。n开展的几个阶段开展的几个阶段 n手工检索手工检索( (早期早期, ,情报检索情报检索) )n穿孔卡片检索穿孔卡片检索(1950s)(1950s)n计算机检索计算机检索( (面向主题面向主题,1960s),1960s)n 联机检索联机检索1970s,1980s)1970s,1980s)n Web Web检索检索(1990s)(1990s)4信息检索原理示意图信息检索原理示意图信息存储与组织信息检索与实施信息结果展示数据库信息集合

3、信息处理者外部信息信息存储信息加工信息采集处理结果结果展示检索模式结果输出特征组配需求特征检索需求匹配算法5IR分类n按资源形式划分按资源形式划分 n1、书目信息检索系统、书目信息检索系统n2、全文检索系统、全文检索系统 n3、多媒体信息检索系统、多媒体信息检索系统n按效劳功能划分按效劳功能划分 n1、单纯检索效劳系统、单纯检索效劳系统 n2、统计分析信息效劳系统、统计分析信息效劳系统n3、决策支持系统、决策支持系统 6IR分类n按效劳区域划分按效劳区域划分n1、单机检索系统、单机检索系统 n2、联机检索系统、联机检索系统 n3、网络检索系统、网络检索系统 n在这门课中,我们只讨论全文检索系统

4、的形式。在这门课中,我们只讨论全文检索系统的形式。7IR和其他领域的关系n数据库数据库(DB ),(DB ),在在DBDB系统中,要创立数据组织方案,这个方案定义系统中,要创立数据组织方案,这个方案定义了各种关系及关系内的属性,利用这些方案,系统可以对用户提了各种关系及关系内的属性,利用这些方案,系统可以对用户提问做出解释。例如,在问做出解释。例如,在DBDB内,可以定义如下的关系:内,可以定义如下的关系:n作者书,名字作者书,名字n其中,作者是关系的名字,其中,作者是关系的名字, 书和名字是这种关系的属性,书和名字是这种关系的属性,分别对应着书的分别对应着书的ID ID 和它的作者名,这只是

5、定义的一局部。为了查和它的作者名,这只是定义的一局部。为了查找由找由“Knuth“Knuth编写的书,可以使用如下的编写的书,可以使用如下的SQLSQL语句:语句:nSELECT book FROM author WHERE name= “KnuthSELECT book FROM author WHERE name= “Knuthn问答系统问答系统(QA),(QA),两个系统中,问题答复的方式是不同的。在两个系统中,问题答复的方式是不同的。在IRIR中,中,对问题的答复是间接的:鉴别关联的文档,然后用户寻找问题的对问题的答复是间接的:鉴别关联的文档,然后用户寻找问题的直接答案。在问答系统中,

6、系统提供直接的答案。直接答案。在问答系统中,系统提供直接的答案。8相关概念n文文档档DocumentDocument,是是指指包包含含各各种种信信息息的的信信息息源源,通通常常情情况况下下,用用户户查查询询的的问问题题的的答答案案存存在在于于此此,它它的的表表现现形形式式可可能能是是文文本本、网网页、图片、音频、视频等。在这门课中,我们只讨论文本的形式。页、图片、音频、视频等。在这门课中,我们只讨论文本的形式。n询询问问QueryQuery,表表示示用用户户所所需需要要的的信信息息,一一般般情情况况下下,它它可可以以用用如下的形式表示:如下的形式表示:“查找和查找和 . . 相关联的文档。相关

7、联的文档。 n关关联联RelevanceRelevance,信信息息检检索索的的目目的的是是寻寻找找相相关关联联的的文文档档。通通常常情情况况下下,在在相相关关联联的的文文档档中中,用用户户应应该该能能够够找找到到他他们们所所需需要要的的信信息息。可可见见,关关联联是是用用来来判判断断是是否否某某个个文文档档能能够够为为用用户户问问题题提提供供答答复复的的。关关联联的的概概念念是是非非常常复复杂杂的的。关关联联是是存存在在于于C C 和和D D 之之间间的的通通过过E E 进行判断的进行判断的B B中的中的A A。其中,。其中,nA A = = 测测量量区区间间,B B = = 关关联联方方面

8、面绝绝对对关关联联, C C = = 文文档档,D D = = 上下文,在这里进行关联测量包括需要的信息上下文,在这里进行关联测量包括需要的信息E E = = 用用户户的判断的判断9相关概念n文本形式,文本存在多种标准形式,通常包括非结构文本形式,文本存在多种标准形式,通常包括非结构化也称为纯文本、半结构化和结构化文本。大多化也称为纯文本、半结构化和结构化文本。大多数情况下,文本被看作是半结构化。比方,一本书的数情况下,文本被看作是半结构化。比方,一本书的说明书可能是如下的形式:说明书可能是如下的形式:nISBN: 0-201-12227-8 ISBN: 0-201-12227-8 nAuth

9、or: Salton, Gerard Author: Salton, Gerard nTitre: Automatic text processing: the Titre: Automatic text processing: the transformation,transformation,n analysis, and retrieval of analysis, and retrieval of information by computer information by computer nEditor: Addison-Wesley Editor: Addison-Wesley

10、nDate: 1989 Date: 1989 n nContent: Content: 10相关概念n切切词词segmentationsegmentation,或或称称分分词词,主主要要在在中中文文信信息息处处理理中中使使用用,即把一句话分成一个词的序列。即把一句话分成一个词的序列。n例例如如,“网网络络与与分分布布式式系系统统实实验验室室,分分词词为为“网网络络/ / 与与/ / 分布式分布式/ / 系统系统/ / 实验室实验室/ /。n停停用用词词stop stop wordword,指指文文档档中中出出现现的的连连词词,介介词词,冠冠词词等等并并无无太太大大意意义义的的词词。例例如如在在

11、英英文文中中常常用用的的停停用用词词有有thethe,a, a, itit等等;在在中中文文中中常常见见的的有有“是是,“的的,“地地等等。通通常常这这些些词词被被放放在在一个列表中,称为停用词表一个列表中,称为停用词表stopliststoplist。 n索索引引词词keyword,keyword,标标引引词词,关关键键词词: :可可以以用用于于指指代代文文档档内内容容的的预预选词语选词语, ,一般为名词或名词词组。一般为名词或名词词组。n组组合合词词compound compound wordswords: :由由两两个个或或两两个个以以上上的的单单词词构构成成的的词词,也称为合成词,如:

12、北京大学,建设银行等。也称为合成词,如:北京大学,建设银行等。n词干提取词干提取stemming stemming 英语文档处理:单、复数,人称,时态等英语文档处理:单、复数,人称,时态等n countries = country countries = country,interesting = interestinteresting = interest11Web检索实例:搜索引擎n搜搜索索引引擎擎Search Search EngineEngine,SESE,WebWeb上上的的一一种种应应用用软软件件系系统统,它它以以一一定定的的策策略略在在WebWeb上上搜搜集集和和发发现现信信息息

13、,对对信信息息进进行行处处理理和和组组织织后后,为为用用户户提提供供WebWeb信信息息查查询询效效劳劳n搜索引擎三段式工作流程搜索引擎三段式工作流程 搜集 预 处 理服务12ExampleGoogleWeb13IR系统的建立n最初应用于图书馆系统(1950s)nISBN:0-201-12227-8nAuthor:Salton,GerardnTitle:Automatictextprocessing:thetransformation,analysis,andretrievalofinformationbycomputernEditor:Addison-WesleynDate:1989nCon

14、tent:n外部属性和内部属性内容nDB:通过外部属性查找nIR:通过内部属性内容进行检索14实现方法1. 字符串匹配(在文档中进行线性扫描)-速度慢-难于改进例如:查找与“数据库和人工智能在工业上的应用相关联的文档。对于“人工智能和数据库在工业上的应用,人工智能在工业上的应用,数据库在工业上的应用,.等情况不兼容。15实现方法2.索引 (*)- 速度快易于改进例如:关键词表示:原句子:数据库和人工智能在工业上的应用预处理后:数据库、人工智能、工业、应用原句子:人工智能和数据库在工业上的应用预处理后:人工智能、数据库、工业、应用倒排文档:人工智能 d1, d3,d5, d6,d7 查找过程描述

15、:用户问题:Q = w1=数据库, w2=人工智能, w3=工业, 且 Q= w1 AND w2 AND (NOT w3)文档列表:w1 d1, d2, d5, d7, d9 w2 d1, d3, d5, d6, d7 w3 d2, d5, d6应用操作: w1 AND w2 = d1, d5,d7 w1 AND w2 AND (NOT w3) = d1,d7 16基于索引的IRDocumentQueryindexingindexing indexingindexing(Queryanalysis)RepresentationRepresentation(keywords)Query (key

16、words)evaluation17基于索引的IR系统形式化表示DocsInformation NeedIndex TermsdocqueryRankingmatch18通用IR系统框图UserInterface Text OperationsQuery OperationsIndexingSearchingRankingIndexTextqueryuser needuser feedbackranked docs retrieved docslogical viewlogical viewinverted fileDB Manager Module4, 106, 75828Text Data

17、baseText19全文检索系统评估n问题n如何评价系统的好与坏?n返回的文档都是相关的吗?精度n所有相关的文档都被找到了吗?全度20系统评估主要方面n效率:时间,空间n效果:n某系统是否有能力检索到相关联的文档?n哪个系统更好?n常用方法:n查准率=检索到的相关文档数/检索的文档数n查全率=检索到的相关文档数/所有的相关文档数relevantretrievedretrievedrelevant21测量方法n查准率:是指在系统所找到的文档中查准率:是指在系统所找到的文档中关联文档所占的比例。关联文档所占的比例。n Precision = Precision = 检出的相关文献量检出的相关文献量

18、 / /检出的文献总量检出的文献总量 = a/(a+c) = a/(a+c)n查全率:是指系统所找到的关联文档查全率:是指系统所找到的关联文档在文档库中所有的关联文档中所占的在文档库中所有的关联文档中所占的比例。比例。n Recall= Recall= 检出的相关文献量检出的相关文献量/ / 检索检索系统中的相关文献总量系统中的相关文献总量 = a/(a+b) = a/(a+b)n噪音噪音(Noise) = (Noise) = 检出的不相关的文档检出的不相关的文档数数 / / 检索的文档数检索的文档数=c/a+c=c/a+cn静音静音(Silence) = (Silence) = 没有检出的相

19、关文没有检出的相关文档数档数 / / 相关文档数相关文档数 =b/a+b =b/a+bn噪音噪音 = 1 = 1 求精率求精率; ;静音静音 = 1 = 1 求全率求全率n非相关检出率非相关检出率FalloutFallout= =检索出的检索出的不相关文档数不相关文档数/ /不相关文档数不相关文档数=c/c+d=c/c+d相关文献不相关文献总计被检出文献aca+c未检出文献bdb+d总计a+b c+da+b+c+d22P/R计算图示ListRel?Doc1 YDoc2Doc3 YDoc4 YDoc5假设: 5 个相关文档23precision/recall的关系查全率R和查准率P之间具有密切的

20、关系即“互逆关系,反映了某一检索结果集合的不同方面的特征。目前,在评价试验的实践中,经常采用的方法是将R和P结合在一起,形成某种单一指标或平均值指标,对它们进行替代。24测试集n系统间的比较:在相同的测试集上,比较不同的IR系统n测试集包括:n文档集合n询问集合 n文档-询问对的相关性判断 (每个询问所对应的答案 )n系统的结果和答案集进行比较25其他测量方法单值测量:F-measure = 2 P * R / (P + R)E-measure = 1-1+b*b/b*b/R+1/P,其中,b为参数,用以反映或调整R和P的相对重要性。注意:当b=1时,E = 1- F;当b1时,意味着P的重要

21、性大于R;当b100K)与问题集(50)n每位参加者对每个问题提交1000个文档n将每位参加者的前100个文档聚集起来,形成一个可能相关的文档“池(globalpooling)n检索评价专家进行人工判断,评出每一文档的相关性n其它的文档被认为是不相关的n系统的性能以1000个答案来计算33比赛工程分类n特殊检索Ad Hoc : 不同的提问式,在同一个文档集合中进行检索n筛选检索Routing (filtering) : 用户的需求是固定的,文档集合是变化的n跨语言检索Cross-Language: 属于Ad Hoc 检索n网页检索Web: 对WWW文档快照集合进行检索n问答系统Question

22、-Answering: When did Nixon visit China?n交互式检索Interactive: 使用户和系统进行交互n口语文档检索Spoken document retrievaln图像和视频检索Image and video retrieval34TREC的意义n为理论检索模型和试验检索系统提供了公平、定量、具有实用价值的性能评价时机,并为前几位的系统提供了商业时机n开发了新的系统评估方法n促进了相关领域的开展(NLP,机器翻译,摘要,)n建议成立C-TREC,促进中国信息检索技术的开展35其他研究机构nCLEF = Cross-Language Experimental

23、 ForumnFor European languagesn Organized by Europeansn Each per year (March Oct.)nNTCIR:nOrganized by NII (Japan)n For Asian languagesn Cycle of 1.5 year36本课的主要研究内容n索引理论:如何最好地表示文档和用户询问的内容,切词、关键词选取索引理论:如何最好地表示文档和用户询问的内容,切词、关键词选取n自动索引的根本原理自动索引的根本原理 n基于词汇分布特征的索引方法基于词汇分布特征的索引方法n基于语言规那么与内容的索引基于语言规那么与内容的索

24、引n人工智能索引法人工智能索引法n汉语自动索引汉语自动索引n检索模型:如何判断询问和文档之间的关联性检索模型:如何判断询问和文档之间的关联性n布尔模型布尔模型Boolean,1957:集合论,布尔代数逻辑操作:集合论,布尔代数逻辑操作n矢量模型矢量模型(Vector Space Model, VSM,1960s末末):线性代数:线性代数n概率模型概率模型Probability,1976:经典概率论:经典概率论n搜索引擎:搜索引擎:Web检索实例检索实例n信息搜集信息搜集n预处理预处理n检索效劳检索效劳n信息处理与组织信息处理与组织n自动分类与聚类自动分类与聚类n自动摘要自动摘要nIR的高级技术性能改善技术的高级技术性能改善技术 n自然语言处理、语言模型自然语言处理、语言模型n多语言检索与分布式检索多语言检索与分布式检索n用户询问技术用户询问技术 37

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板/表格 > 财务表格

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号