[互联网]01信息检索概述

上传人:tia****nde 文档编号:70258998 上传时间:2019-01-16 格式:PPT 页数:97 大小:4.73MB
返回 下载 相关 举报
[互联网]01信息检索概述_第1页
第1页 / 共97页
[互联网]01信息检索概述_第2页
第2页 / 共97页
[互联网]01信息检索概述_第3页
第3页 / 共97页
[互联网]01信息检索概述_第4页
第4页 / 共97页
[互联网]01信息检索概述_第5页
第5页 / 共97页
点击查看更多>>
资源描述

《[互联网]01信息检索概述》由会员分享,可在线阅读,更多相关《[互联网]01信息检索概述(97页珍藏版)》请在金锄头文库上搜索。

1、信息检索,计算机学院信息检索研究中心 秦兵 ,互联网搜索引擎,搜索引擎是大家耳熟能详的产品 搜索是一个古老的计算机科学问题,范围和深度不断加强 随着网络的发展,成为一个重要的工具 搜索引擎是信息检索技术在大规模文本集合上的实际应用,信息检索起源,信息检索(Information Retrieval)最早出现在图书馆领域,是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术 互联网的出现,丰富了信息检索的内涵。常常以搜索引擎的出现突出互联网信息检索概念 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理

2、后,为用户提供检索服务的系统。,我们所使用的Web搜索系统,从这门课中将学到,信息检索概述及评价 信息检索模型 检索的改进技术 查询操作 Web信息检索,教材及参考书,教材: 信息检索系统导论,机械工业出版社,2008 搜索引擎-信息检索实践,Bruce Croft等,2010 参考书 Ricardo Baeza-Yates and Berthier Ribeiro-Neto, Modern Information Retrieval, Addison-Wesley. 1999. Christopher D. Manning, Prabhakar Raghavan and Hinrich Sc

3、htze, Introduction to Information Retrieval, Cambridge University Press. 2007. 李晓明,闫宏飞等。搜索引擎原理、技术与系统 课件:http:/ 信息检索体系结构 历史与现状 发展趋势和面临的挑战 国内外主要搜索引擎,信息检索的概念及意义,信息检索技术,信息检索是从非结构化的文档集中找出与用户需求相关的信息 和其它相关技术的区别 和数据库的区别 数据库是结构化数据, IR的检索结果也往往是不精确的,而不象数据库查询那样正确率一定是100%。 和情报检索的区别 情报检索介绍如何利用信息检索工具,典型的信息检索任务,给定条

4、件 自然语言的文档集合 用户的提问(Query) 查找结果 和query相关的经过排序(Rank)的文档子集,用户需求:Query 及 Profile(轮廓,外形) 形式,关键词 带布尔操作的关键词 自由文本 事例文档 .,早期信息检索系统,IR System,Web搜索系统,IR系统,Web搜索,将IR技术应用于World Wide Web上的HTML网页 和纯文本相比,网页的特点如下: 必须通过在网上“爬行”搜集网页 可以开发结构布局信息 文档的更新是不可控的 可以开发网页之间的链接结构,信息检索处理的对象,非结构化数据 文本数据:新闻、科技论文等 网页:HTML、XML 多媒体数据:图像

5、、视频、图形、音频 目前最主要的处理对象是互联网 文字 图片,基于内容的图像查询,用户的提问,搜索 引擎,基于文本的图像查询,信息检索的重要性,由信息匮乏到信息爆炸,需要有效的检索方式 传统管理软件需要嵌入IR技术 在SQL数据库中 已采用文本检索技术 select * from Employee where Name like %Lee%. 在Lotus Notes办公平台上 同样也已采用文本检索技术 互联网数据的增长和在线文档(如联机用户手册等)的增长,向IR技术提出迫切需求,检索无处不在,信息检索系统体系结构,信息检索系统的体系结构,分词 删除停用词 Stemming(提取词干),为文档

6、建立倒排索引表,根据倒排索引表检索出与提问相关的文档,将检索出的文档根据相关性排序,Query输入和文档输出 相关反馈 结果的可视化,对query进行变换,以改进检索结果,IR的历史与现状,图书馆卡片索引&智能问答系统,IR的历史,1960-70s: 最初的信息检索系统面向小型的科学文摘数据库、法律和商业文档 检索模型为基本的布尔模型和向量空间模型 Cornell University的Prof. Salton成为这个领域的先驱,著名的IR向量空间模型的创始人,开发了著名的SMART向量空间模型IR系统,并免费开放源代码,大大促进了IR的发展,IR历史,1980s: IR技术出现在大型文档数据

7、库中 Lexis-Nexis 美国LEXIS-NEXIS公司创始于1973年,其数据库内容很广,其中法规法律方面的数据库是LEXIS-NEXIS的特色信息源,具有非常大的影响力,尤其在法律业界具有很高知名度 Dialog 目前世界上最大的联机检索检索系统之一,包括各学科数据库600多种,可查询研究动态,SCI,EI收录以及专利等情况 MEDLINE MEDLINE是美国国家医学图书馆的文献数据库,IR历史,1990s: 在互联网上对FTP服务器上的文档进行搜索 Archie Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以

8、下载该文件 WAIS 代表“广域信息服务”(Wide Area Information Service),是一种能查询500 个检索数据库的工具,IR历史,1990s (续) : 在World Wide Web上进行搜索 Yahoo 1994年4月,Stanford两名博士生,美籍华人JerryYang(杨致远)和DavidFilo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。基于目录的检索 Altavista AltaVista是网上最早的爬行搜索引擎。AltaVista搜索技术从纯文本搜索技术开始,发布于1995年;1997年,其搜索能力扩展到

9、25种语言搜索;1999年开始多媒体文件的搜索;2001年首次推出网上免费新闻搜索,2003年AltaVista被Overture收购。,IR 历史,1990s (续): 有组织地进行评测 美国标准与技术研究所NIST和国防部高级研究规划局DARPA共同发起TREC,1992年开始 智能推荐系统(个性化推荐,良好的互动性,适应性) Ringo Amazon(亚马逊网络售书) NetPerceptions,IR历史,以雅虎初期为代表的第一代搜索引擎以人工目录分类为基础的网站搜索开辟了一个时代 第一代搜索引擎指主要依靠人工分拣的分类目录搜索,这种方式是被动的搜索,更新慢、搜索能力不足 第一代搜索引

10、擎基本上已经退出搜索舞台。,IR 历史,2000s 为Web搜索服务的链接分析 Google 自动信息抽取 Whizbang Fetch Burning Glass 问答系统 TREC Q/A track,IR 现状,近期的 IR: 多媒体检索 图像(Image) 视频(Video) 声音(speech)和音频(Audio) 音乐(music) 跨语言检索 DARPA Tides项目 智能化、个性化检索,IR 现状,以Google为代表的第二代搜索引擎以超链分析技术为基础的大规模网页搜索,根据关键词的分布情况对页面进行分类和排序 优点: 只要网页上出现了某个关键词,就能够使用全文检索用关键词匹

11、配把该网页查出来 不足: 返回的无用信息太多 原因: 仅采用机械的关键词匹配来实现,IR 现状,多数检索系统是基于关键词的搜索 可能找不到同义词 “PRC” vs. “China” “电脑”vs. “计算机” 可能检索到一些不相关的多义词 “bat” (baseball vs. mammal) “Apple” (company vs. fruit) 保安(地名 vs. 保护安全的人员),同义词,词义消岐,官员:国新办副主任蔡名照 (2008互联网大会),互联网正从提供信息服务向提供平台服务延伸,传统互联网正在向移动互联网延伸,从服务模式看,从传播手段看,互联网正从信息传播和娱乐消费为主向商务服

12、务领域延伸,从应用领域看,搜索引擎用户的抱怨,搜索结果重复率高,搜索到的网页打不开等令人烦恼,个性化内容少,结果雷同也是不可以忍受的,专业搜索功能差,信息更新速度慢,73.3%,54.1%,48.3%,49.1%,多媒体搜索功能弱,30.1%,垂直,实时,跨媒体,个性化,精准,搜索技术发展趋势,ThemeGallery is a Design Digital Content & Contents mall developed by Guild Design Inc.,趋势,2. 智能化,1. 个性化,多媒体化,垂直化,社区化,移动化,个性化,智能化,精准化,搜索技术,各种趋势的背景,精准化(个

13、性化):更有效地获取信息 智能化:更便捷地表达需求 商务化:在产业链中寻找更高价值 移动化:移动互联网的迅猛发展 社区化:社交媒体的崛起 垂直化:深入行业 多媒体化:整合多媒体数据,跨媒体检索,应用体验,输入一类媒体,返回另一类媒体 输入文本,返回图片;输入图片,返回文本,基础处理,各类媒体信息的集成 同时利用图片自身的图像信息和图片周围的环绕文字对图片内容进行分析,并建立索引,米歇尔奥巴马,一群小学生,草坪,人脸识别与环绕文字分析相结合的图片检索,搜索引擎对大规模并行计算的需求,计算搜索 结果排序,倒排索引 生成,日志统计 和分析,并行计算,智能挖掘,统计词频,云计算,当今社会,PC依然是我

14、们日常工作生活中的核心工具 在“云计算”时代,“云”会替我们做存储和计算的工作 是一种网络服务 可以在任何地点用任何设备,如电脑、手机等,快速地计算和找到这些资料,再也不用担心资料丢失 Google,Amazon,IBM,Intel都在这方面有所动作 阿里云,从自然语言处理入手,提高信息检索质量,信息检索,数据库,并行处理,网络,信息安全,数据挖掘,自然语言处理,知识管理,操作系统,图像、视频、语音,百度框计算,“请给我找出好听的音乐”,个性化用户需求分析,2009年8月18日 ,百度董事长兼CEO(首席执行官)李彦宏在此次大会上发布了“框计算(Box Computing)” 平台的理念和很有

15、前景的构想 。,百度框计算,“框计算”到底意味着什么呢 ,“框计算”到底意味着什么呢 ? 首先,“框”是一个功能强大的需求收集器和分析器 其次,由于“框”能在互联网可选范围内根据用户需求自动匹配最佳的应用和服务,这个“框”又带有典型的操作系统特性,Powerset,Powerset是美国旧金山的一家搜索引擎公司,它的搜索引擎所使用的核心技术自然语言处理技术。这使得Powerset与Google从本质上有区别。,WolframAlpha,WolframAlpha是首个“计算知识搜索”引擎,其“父亲”为美国计算机科学家史蒂芬沃尔弗拉姆,WolframAlpha,Wolfram Alpha的工作原理

16、同谷歌网页搜索有着较大区别 在Wolfram Alpha服务中,用户在搜索框键入需要查询的问题后,该搜索引擎将直接向用户返回答案,而不是返回一大堆网页链接 同Powerset的语义搜索一样,用户也可在Wolfram Alpha当中键入符合语法意义的问题查询句子,智能化,以自然语言理解技术为基础的新一代搜索引擎,我们称之为智能搜索引擎 由于它将信息检索从目前基于关键词层面提高到基于知识(或概念)层面,能够实现分词技术、同义词技术、词义消歧、概念搜索以及机器翻译技术等 允许用户采用自然语言进行信息的检索,为用户提供更方便、更确切的搜索服务,个性化,个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一 通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息 分析特定用户的搜索需求限定的范围,然后按照用户需求范围

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号