《计算机基础》-第8章-信息检索课件

上传人:F****n 文档编号:88135515 上传时间:2019-04-19 格式:PPT 页数:79 大小:5.65MB
返回 下载 相关 举报
《计算机基础》-第8章-信息检索课件_第1页
第1页 / 共79页
《计算机基础》-第8章-信息检索课件_第2页
第2页 / 共79页
《计算机基础》-第8章-信息检索课件_第3页
第3页 / 共79页
《计算机基础》-第8章-信息检索课件_第4页
第4页 / 共79页
《计算机基础》-第8章-信息检索课件_第5页
第5页 / 共79页
点击查看更多>>
资源描述

《《计算机基础》-第8章-信息检索课件》由会员分享,可在线阅读,更多相关《《计算机基础》-第8章-信息检索课件(79页珍藏版)》请在金锄头文库上搜索。

1、第8章 信息检索,8.1 信息检索,教学目的 了解文献、信息、信息检索、 信息检索系统等概念 了解信息检索的类型 掌握常用搜索引擎的使用方法 掌握专题数据库的检索方法,8.2 检索系统的类型,8.3 网络检索系统,8.4 检索意愿的表达,8.5 常用搜索引擎,8.6 网络专题数据库,习题与实验,2019/4/19,2,8.1 信息检索,1、信息检索基本理论 (1)文献:是记录有知识的一切载体的总和。包括载体与知识两部分。 远古时期的结绳记事:绳子+每个结表示的含义; 甲骨文时期:大动物的骨头、龟壳+记录的内容; 竹简时期:竹子+记录的内容; 纸张时代:书、手稿等+记录的内容; 现代:音像制品、

2、电子出版物等+记录的内容。 (2) 信息:从客观上说,信息是指一切事物存在方式和运动规律的表征,或我们对周围 世界的一种认识。有正确与错误之分。 (3)信息检索:信息检索是指将杂乱无序的信息有序化形成信息集合,并根据需要从信息集合中查找出特定信息的过程。 (4)信息检索系统: 任何具有信息存储与检索功能的系统,均可以称之为信息检索系统。从狭义上讲,信息检索系统可以理解为一种可以向用户提供信息检索服务的系统。,2019/4/19,3,8.2 检索系统的类型,1. 检索系统按照检索的功能划分可分为: 书目检索系统 事实数据检索系统 2. 检索系统按照检索的手段划分可分为: 手工检索系统 计算机检索

3、系统 计算机检索系统由计算机硬件、检索软件、数据库及通信网络等组成。 硬件主要包括:中心计算机、检索终端及数据输出设备等; 检索软件是检索系统的灵魂,负责管理数据库和处理检索提问,它决定系统的检索能力; 数据库是检索系统的信息源,是检索作业的对象; 通信网络是信息传递的设施,其主要作用是在检索终端和中心计算机之间进行信息传递。,2019/4/19,4,8.2 检索系统的类型,3. 常用信息检索系统类型:,2019/4/19,5,8.3 网络检索系统,1. 用户如何在网络上找到信息? 解决之道:搜索引擎 2. 搜索引擎的分类: 目录(Directory,或 Catalog); 基于Robot的搜

4、索引擎; 元搜索引擎 (用得较少)。 8.3.1 目录 目录:目录方式所使用的数据库是依靠专职编辑或志愿人员建立起来的。 目录的用户界面基本上都是分级结构。有两种使用方式: 由开始几个大类入口逐级向下访问 找到自己感兴趣的类别。 利用目录提供的搜索功能直接查找一个关键词。,2019/4/19,6,8.3 网络检索系统,优点:比较精确。由于目录依靠人工来评价一个网站的内容,因此用户从目录搜 索得到的结果往往比从其它的搜索引擎得到的结果更具参考价值。 缺点:有一定时延。只能在已经保存的站点特性描述数据库中进行搜索,因此站点本身的动态变化可能不会及时反映到特性描述数据库中。 8.3.2 基于Robo

5、t的搜索引擎 Robot:一个能够沿着链接漫游整个Web集合的程序。 特点:需要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的更新情况,并去除一些无效链接。 代表:天网,Google,2019/4/19,7,8.3 网络检索系统,8.3.3 元搜索引擎 元搜索引擎(Meta-search Engine):是一种调用其他独立搜索引擎的引擎。“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。 元搜索引擎是用户同时利用多个引擎进行网络信息搜索的中介。 检索时,元搜索引擎整理用户提交的检索请求,调用多个独立搜索引擎进行搜索,优化搜索结果,

6、统一显示。,2019/4/19,8,8.4 检索意愿的表达,8.4.1 布尔检索 1. 常用检索技术 用得多:布尔检索、词位检索 用得少:截词检索、限制检索 注:并不是每个检索系统都支持所有的检索技术。 2. 布尔检索 布尔运算符:AND、OR、NOT,2019/4/19,9,8.4 检索意愿的表达,(1) AND 逻辑与是一种具有概念交叉或概念限定关系的组配,用“*”或“AND”算符表示。 使用“逻辑与”组配技术,缩小了检索范围,增强了检索的专指性,可提高检索信息的查准率。 例:“打印机驱动程序” 查询关键词:打印机、驱动程序 检索表达式:打印机 AND 驱动程序 (2) OR 逻辑或是一种

7、具有并列关系概念的组配,用“+”或“OR”算符表示。 使用“逻辑或”检索技术,扩大了检索范围,能提高检索信息的查全率。 检索“微型计算机”方面的有关信息 查询关键词:微型计算机、微机 检索表达式:微型计算机OR 微机,2019/4/19,10,8.4 检索意愿的表达,(3) NOT 逻辑非是一种具有排除关系概念的组配,用“”或“NOT”算符表示。 使用“逻辑非”可排除不需要的概念,能提高检索信息的查准率,但也容易将相关的信息剔除,影响检索信息的查全率。 慎重使用! 例:检索“笔记本”方面的有关信息 查询关键词:笔记本、电脑 检索表达式:笔记本 NOT 电脑 3. 布尔运算符优先级比较 有括号时

8、:括号内的先执行;无无括时:NOT AND OR 例:检索“唐宋诗歌”的有关信息。 关键词:唐、宋、诗歌; 检索表达式: (唐 OR 宋)AND 诗歌; 唐AND诗歌 OR 宋AND诗歌;,2019/4/19,11,8.4 检索意愿的表达,8.4.2 截词检索 截词检索:截词检索是预防漏检提高查全率的一种常用检索技术。截词是指在检索词的合适位置进行截断,然后使用截词符进行处理,这样既可节省输入的字符数目,又可达到较高的查全率。 尤其在西文检索系统中,使用截词符处理自由词,对提高查全率的效果非常显著。使用截词检索具有隐含的布尔逻辑或(OR)运算的功能,可简化检索过程。 1. 后截词 是指检索结果

9、中单词的前面几个字符与关键字中截词符前面的字符相一致的检索。具体包括: 有限后截词:主要用于词的单、复数,动词的词尾变化等。如books可用book?代表,其中截词符“?”(也称为通配符)可以用来代替0个或1个字符。因此,book?可检索出包含有book或books词的记录,acid?可检索出含有acid、acidic 和acids的记录。 无限后截词:主要用于同根词。如solubilit用solub*处理,可检索出含有solubilize、solubilization及soluble等同根词的记录。截词符“*”(也称为通配符)可以用来代替多个字符。,2019/4/19,12,8.4 检索意愿

10、的表达,2. 中截词 也称屏蔽词,使用符号“?”,代替那个不同拼写的字符。一般来说,中截词仅允许有限截词,主要用于英、美拼写不同的词和单复数拼写不同的词。 如organi?ation可检索出含有organisation和organization的记录,因为两个单词仅在organi-后的一个字母不一样,一个是s,另一个是z。,2019/4/19,13,8.5 常用搜索引擎使用介绍,8.5.1 天网中英文搜索引擎 1简介 天网资源检索系统是中国教育和科研计算机网示范工程应用系统课题之一,是国家“九五”重点科技项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERN

11、ET上向广大Internet用户提供Web信息导航服务。天网系统由北京大学计算机系网络研究室设计开发。 天网除提供WWW主页检索外,还提供FTP站点搜索(“天网文件”),为高级用户查找特定文件提供方便。同时,天网将FTP文件分为电影和动画片、MP3音乐、程序下载及文档资源共4大类,用户可以像目录导航式搜索引擎那样层层深入、查找自己需要的FTP文件。,2019/4/19,14,8.5 常用搜索引擎使用介绍,2使用方法 (1) 启动方法 启动IE浏览器; 在地址栏输入:http:/ (2) 检索网页使用方法 在检索框内输入选定的布尔表达式,如“英语学习” 选择: 检查检索结果(请注意演示,(下页是

12、结果截图),【例8.1】天网搜索引擎的使用。针对大学一年级学生英语学习任务重的情况,请检索能够帮助他们学习的有关内容,可能的话再检索有关“英语四、六级考试”方面的最新消息。,2019/4/19,15,8.5 常用搜索引擎使用介绍,网页标题,网页地址,网页内容,2019/4/19,16,8.5 常用搜索引擎使用介绍,通过分析搜索结果可以看到,在搜索结果中可能包含有大量的信息,这些信息有的与用户的要求有关,但更多的是与用户需求无关的。用户要在这样的信息“海洋”中找到自已真正想要的信息恐怕会很困难。 商业引擎为了自身的利益或点击率的需要,不得不包含更多的网页。对一个最终用户而言,无关的网页越多,寻找

13、有价值网页就越困难,这也是目前商业化的搜索引擎让人最不满意的地方。 在上例中,共检索出的结果为: 如果用户想检索的是与“大学英语”学习有关的问题,如何处理: 一是可以修改检索词;二是在第一次检索结果的基础上进行二次检索,以求精确。,2019/4/19,17,8.5 常用搜索引擎使用介绍,二次检索: 选择在“结果中查询”,达到二次检索的目的。 结果:检索结果数量大大减少;每条结果中均同时包含“英语学习”、“大学英语”两个关键词。,2019/4/19,18,8.5 常用搜索引擎使用介绍,2019/4/19,19,8.5 常用搜索引擎使用介绍,(3) “检索文件” 功能简介 这是“天网”区别于其他一

14、些商业搜索引擎的地方,它提供教育网内FTP服务器所有文件的检索,它可以搜索教育网内FTP服务器中文件名与指定关键字相同的文件,并可以通过文件传输软件将这些文件下载。 使用方法; 在检索框内输入选定的布尔表达式,如:“四六级” 选择: 检查检索结果(请注意演示) 使用文件传输软件将选中的文件下载到本地计算机。(使用方法见下页),2019/4/19,20,8.5 常用搜索引擎使用介绍,检索词:四六级; 方法:搜索文件,2019/4/19,21,8.5 常用搜索引擎使用介绍,排序方式,2019/4/19,22,8.5 常用搜索引擎使用介绍,有意义的是:在教育网上存放着大量的由在校学生自主设立与管理的

15、FTP网站,这些网站不仅有学习资料,还保存了大量的听课笔记、习题解答、技术文档、课件材料和一些参考书的电子版,这些对于在校学生来说非常有用。出于知识版权的考虑,用户可以下载、学习,但不应该以营利为目的。 选择欲下载的文件 找到自己想要的文件,单击鼠标右键(不是单击左键),复制该文件的下载地址,目的为下面使用FTP软件作准备;如下图所示:,2019/4/19,23,8.5 常用搜索引擎使用介绍,启动FTP软件,如: FlashFXP 在显示界面上选择“ ”的符号,输入刚复制的文件地址并连接;,2019/4/19,24,8.5 常用搜索引擎使用介绍,在正常连接后 选中自己需要的文件,单击右键,选择

16、“下载”,则刚才选中的文件就通过网络传输到自己的本地计算机。,2019/4/19,25,8.5 常用搜索引擎使用介绍,8.5.2 Yahoo中英文搜索引擎 1. 简介 雅虎(Yahoo)于1994年问世,它是世界上最早开发的、最受欢迎的目录型搜索引擎之一。主要用于检索Web网页、网站、新闻组及FTP等资源。它的主题分为娱乐、休闲与运动、商业与经济、新闻与媒体、参考资料、政府与政治、艺术与人文、电脑与因特网、区域、科学、社会与文化、教育及社会科学等14个大类。在每个大类下又分了许多子类,在子类下又再细分子类,最深可达6级以上,每个子类下都列出了大量相关的网站。 启动IE浏览器,在地址栏输入:http:/ 常用搜索引擎使用介绍,雅虎采用一个自动化程序(Robot)从各种新地址中收集网址信息,同时接受用户的申请。对所收集的信息由人工进行分类和更新,因

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号