第1章 信息检索的相关概念

上传人:豆浆 文档编号:6002362 上传时间:2017-08-07 格式:PPT 页数:50 大小:1.37MB
返回 下载 相关 举报
第1章 信息检索的相关概念_第1页
第1页 / 共50页
第1章 信息检索的相关概念_第2页
第2页 / 共50页
第1章 信息检索的相关概念_第3页
第3页 / 共50页
第1章 信息检索的相关概念_第4页
第4页 / 共50页
第1章 信息检索的相关概念_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《第1章 信息检索的相关概念》由会员分享,可在线阅读,更多相关《第1章 信息检索的相关概念(50页珍藏版)》请在金锄头文库上搜索。

1、现代信息检索Modern Information Retrieval,第一章 信息检索的相关概念,提纲,信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程,2,提纲,信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程,3,信息检索的基本概念,信息检索产生信息检索简介信息检索概念,4,信息检索的基本概念,信息检索产生信息检索简介信息检索概念,5,信息过载(Information overload),全世界每年产生1到2 EB (1 EB10 18B)信息,相当于地球上每个人大概产生250MB信息,其中纸质信息仅占所有信息的0.3%(Lyman &

2、Hal 03)静态网页有上百亿,动态及隐藏网页至少是静态网页的500倍。Tom Landauer认为人的大脑只能存储量,一辈子只能接触6G的信息量。,6,Internet增长(1),7,Internet增长(2),8,全球数字化进程加快,1998年,美国前副总统戈尔提出数字化地球的概念。1998年,江泽民总书记提出数字中国战略构想。1999年,北京市市长刘淇提出数字北京概念。全世界启动了数字图书馆、数字博物馆在内的一系列工程,另外包括虚拟博物馆、数字电影、交互电视、会议电视、远程教育、遥感、GPS等在内的服务或应用也产生大量文本和多媒体数据。,9,问题!,一方面,人们可以获得的信息的来源非常广

3、泛。另一方面,人们如何快速、准确、全面地获得自己所需要的信息?非常困难!信息量太大,而且信息冗余度大、质量良莠不齐、格式不一、位置分散、关联复杂、语言繁多用户需求的表达和理解非常困难信息的理解非常困难自然语言文本、图片、视频,10,11,信息检索是研究如何解决上述问题的一门学科!,IR系统,用户需求,相关结果,信息检索的基本概念,信息检索产生信息检索简介信息检索概念,12,信息检索信息检索简介 (1),Information Retrieval这个术语产生于 Calvin Mooers 1948年在MIT的硕士论文。Information Retrieval(IR):从文档集合中返回满足用户需

4、求的相关信息的过程。作为一门学科,是研究信息的获(acquisition表示(representation)、存(storage)、组织(organization)和访问(access)的一门学问。,13,信息检索简介(2),信息检索可以看成计算机科学Science)和图书情报学的交叉学科。(Computer (Library & Info. Science)以计算机为手段,处理信息对象和其他学科也融合:语言学、认知科学等检索来自英文单词Retrieval,有些人把它翻译成获取。其本义是“ 获得与输入要求相匹配的输出” 。和我们平时所理解的搜索意义上的检索不一样。,14,信息检索简介(3),I

5、R不仅仅是搜索,IR系统也不仅仅是搜索引擎。例1:返回与信息检索相关的网页搜索引擎(Search Engine,SE)例2:毛主席的生日是哪天? 问答系统(Question Answering, QA)例3:返回联想PC的型号、配置、价格等信息信息抽取(Information Extraction, IE)例4:订阅有关NBA的新闻信息过滤(Information Filtering)、信息推荐也可以这样说,狭义的IR通常是指Information Search,而广义的IR包含非常多的内容(SE, QA,Search,IE等)。本课程介绍的是广义的IR.,信息检索的基本概念,信息检索产生信息

6、检索简介信息检索中的基本概念,16,信息检索中的基本概念用户需求,用户需求(User Need,UN) :用户需要获得的信息.严格地说, UN只存在于用户的内心,但是通常用文本严格地说,UN只存在于用户的内心,但是通常用文本来描述,如 查找与2006世界杯相关的新闻,有时也称为主题(Topic)UN提交给检索系统时称为查询(Query),如 2006 世界杯,对同一个UN,不同人不同时候可以构造出不同的Query,比如上述需求也可表示成 2006 世界杯新闻,Query在IR系统中往往还有内部表示,17,信息检索中的基本概念文档与文档集,文档(Document):检索的对象可以是文本,也可以是

7、图像、视频、语音等多媒体文档,text retrieval/image retrieval/videoretrieval/speech retrieval/multimedia retrieval可以是无格式、半格式、有格式的文档集合(Collection):所有待检索的文档构成的集合也称为Repository,Corpus,18,信息检索的基本概念相关度,相关(relevant、相关度relevance)相关取决于用户的判断,是一个主观概念不同用户做出的判断很难保证一致.即使是同一用户在不同时期、不同环境下做出的判断也不尽相同,19,信息检索的基本概念相关度(续),定义“相关性”的两个角度:

8、系统角度:系统输出结果,用户是信息的接受者。这种理解置用户于被动的地位,基于这种理解,研究的重心落在系统本身。主题相关性:检索系统检出的文档的主题即核心内容与用户的信息需求相匹配。 系统角度相关并不和用户脱节。系统角度定义的相关简单可以计算。用户角度:观察用户对检索结果的反应,是系统输出向用户需求的投射。相关性被认为是用户方面的属性。 用户角度定义的相关目前仍然难以计算。现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念,当然也强调考虑用户的认知因素。,20,信息检索的基本概念相关度(续),21,信息检索的基本概念相关度(续),形式上说,信息检索中的相关度是一个函数R,输入是查询Q、文

9、档D和文档集合C,返回的是一个实数值R=f(Q,D,C)信息检索就是给定一个查询Q,从文档集合C中计算每篇文档D与Q的相关度并排序(Ranking)。相关度通常只有相对意义,对一个Q,不同文档的相关度可以比较,而对于不同的Q的相关度不便比较相关度的输入信息可以更多,比如用户的背景信息、用户的查询历史等等现代信息检索中相关度不是唯一度量,如还有:重要度、权威度、新颖度等度量。或者说这些因子都影响Google中据说用了上百种排名因子,22,信息检索的基本概念-信息检索和数据库检索,23,近年来,随着XML的出现,两种检索已经逐渐融合,边界越来越不明显。,信息检索课程介绍,本文将主要介绍面向文本对象

10、的检索,即文本检索(text retrieval)。文本是人们表达知识(论文)、交流(口语)的最常用的形式。文本可以用于描述其他媒体。其他媒体形式的检索的方法往往借鉴自文本检索。信息检索的两种研究方式:以计算机为中心:IR的工作主要是建立索引、对用户查询进行处理、排序算法等等以用户为中心:IR的主要工作是考察用户的行为、理解用户的需求、这些行为和需求如何影响检索系统的组织本课程主要研究以计算机为中心的IR问题,目前是主流,24,提纲,信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程,25,历史分段,计算机出现以前计算机出现以后Internet出现以后,26,IR历史-

11、计算机出现以前,计算机出现以前:约4000年前,人类就开始有目的地组织信息,一个典型的例子就是图书中的目录。随后,逐渐出现索引的概念,即从一些词和概念指向相关信息或者文档的指针。计算机问世以前,人们主要通过手工方式来建立索引。,27,IR历史-计算机出现以后,1948:C. N. Mooers 在其MIT的硕士论文中第一次创造了“Information Retrieval”这个术语。196070年代:人们开始使用计算机为一些小规模科技和商业文献的摘要建立文本检索系统。产生了布尔模型(Boolean Model)、向量空间模型(Vector SpaceModel)和概率检索模型(Probabil

12、istic Model)。康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者。伦敦城市大学的Robertson及剑桥大学的Sparck Jones是概率模型的倡导者。,28,IR历史-计算机出现以后(续),1980年代:出现了一些商用的较大规模数据库检索系统Lexis-NexisDialogMEDLINE,29,IR历史-Internet出现以后,1986:Internet正式形成1990s:第一个网络搜索工具:1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie第一个WEB搜索引擎:1994年美国CMU开发的Lycos1995:斯坦福大学博士生开发的Yahoo1998:斯坦福

13、大学博士生开发的Google,提出PageRank计算公式。1998:基于语言模型的IR模型提出。,30,IR历史-Internet出现以后(续1),1990年代的其他重要事件:评测会议NIST TREC推荐系统的出现RingoAmazonNetPerceptions文本分类和聚类的使用,31,IR历史-Internet出现以后(续2),2000s信息抽取WhizbangFetchBurning Glass问答系统TREC Q/A track2001年,百度成立,32,IR历史-Internet出现以后(续3),2000以来的其他重要事件:多媒体 IRImageVideoAudio and m

14、usic跨语言 IRDARPA Tides文本摘要DUC评测,33,提纲,信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程,34,相关研究领域,图书情报学(Library & Info. Science)数据库管理(Database Management)人工智能(Artificial Intelligence)自然语言处理(Natural Language Processing)机器学习(Machine Learning),35,图书情报学(Library andInformation Science, LIS),IR最初起源于LISLIS主要关注IR中的用户方(人

15、机交互、用户界面、可视化)LIS关注人类只是的高效分类LIS关注文献的引用分析(citation analysis)和文献计量(bibliometrics)近年来数字图书馆方面的工作使得LIS和IR日益融合。,36,数据库管理系统(DatabaseManagement, DM),DM主要面向关系表中的结构化数据而非自由文本。DM主要集中于高效解决形式化语言(如SQL)定义的查询。DM中不论是查询还是数据都具有明确的语义。近年来半结构化的XML数据的出现使DM和IR逐渐融合,37,人工智能(Artificial Intelligence,AI),AI关注知识的表示、推理和智能行为。AI中知识的形

16、式化表示一阶谓词逻辑(First Order Predicate Logic)贝叶斯网络(Bayesian Networks)近年来Web本体及智能信息Agen方面研究使得IR和AI相互融合。,38,自然语言理解(Natural LanguageProcessing,NLP),NLP关注自然语言文本的语法(syntactic) 、语义(semantic)及语用(pragmatic)分析。NLP可以分析短语结构和语义,使得IR可以在短语上、或者从语义上进行处理,而不是仅仅基于单个关键词。NLP和IR天生就是融合的。,39,NLP和IR融合的其他方面,通过上下文词义消歧(word sense disambiguation)来确定一个词在某个特定上下文的语义。通过一些NLP方法来获得文档中的一个语言片断 (information extraction).通过NLP方法可以从文档集合中返回一些问题的答案 (question answering),

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号