《检索原理和搜索引擎》-精选课件(公开PPT)

上传人:zhuma****mei1 文档编号:136503414 上传时间:2020-06-28 格式:PPT 页数:93 大小:8.18MB
返回 下载 相关 举报
《检索原理和搜索引擎》-精选课件(公开PPT)_第1页
第1页 / 共93页
《检索原理和搜索引擎》-精选课件(公开PPT)_第2页
第2页 / 共93页
《检索原理和搜索引擎》-精选课件(公开PPT)_第3页
第3页 / 共93页
《检索原理和搜索引擎》-精选课件(公开PPT)_第4页
第4页 / 共93页
《检索原理和搜索引擎》-精选课件(公开PPT)_第5页
第5页 / 共93页
点击查看更多>>
资源描述

《《检索原理和搜索引擎》-精选课件(公开PPT)》由会员分享,可在线阅读,更多相关《《检索原理和搜索引擎》-精选课件(公开PPT)(93页珍藏版)》请在金锄头文库上搜索。

1、第二讲 检索原理和搜索引擎,云南农业职业技术学院信息检索,3,本章内容,第一节 信息检索原理: 关键词匹配原则,云南农业职业技术学院信息检索,5,1、从“图灵实验”说起,大家都知道,计算机发展史上有一个重要人物图灵,他在上世纪50年代曾经提出了一个假想的实验,认为计算机可以具有人类的思维能力,被称为“图灵实验”。他并且预言,在20世纪末,具有人工智能的计算机将会出现。但时至今日,仍未有任何一台计算机能通过“图灵实验”。,云南农业职业技术学院信息检索,6,2、计算机检索的奥妙:关键词匹配,计算机既然如此“无能”,连三岁小孩的智能都不具有,那么为什么人们要在网上查找信息,却总要通过计算机帮忙呢?计

2、算机检索的奥妙在哪里呢? 原来,计算机实现检索的奥妙,就在于它能把你输入的检索词,与它后台数据库中存储的文件关键词进行比对,如果能够匹配,就认为这条信息是你需要的,立刻输出给你。,云南农业职业技术学院信息检索,7,广义的信息检索:是指将信息按一定的方式组织和存储起来,并根据用户的需要找出相关信息的过程。,狭义的信息检索: 一个匹配( Match)过程 即用户使用检索语言对自己的信息需求予以描述,并在一定的信息资源系统中进行描述匹配的过程。,3、什么是信息检索?,云南农业职业技术学院信息检索,8,存 储,检 索,原始文献,加工整理,数据库,提 问,检 索,输 出,“爱因斯坦论文”,“论文”,“爱

3、因斯坦”,“论文”,“爱因斯坦”,云南农业职业技术学院信息检索,9,4、信息检索原理,检索 提问式,信息 的选 择与 收集,信息 特征,标 识 语 言,检索工具 匹配,检 索 结 果,信 息 源,用 户,信 息 需 求,检索 提问,数据库,云南农业职业技术学院信息检索,10,What? Where? How?,5、信息检索的要领,云南农业职业技术学院信息检索,11,6、信息检索类型,依信息存储和检索的方式 手工检索(Manual Retrieval) 也叫传统信息检索,是利用各种印刷型检索工具来查找文献的一种方法。 计算机检索(Camputer-based Retrieval) 也叫现代信息检

4、索,是指利用计算机和网络来处理和查找文献信息的检索方式。,云南农业职业技术学院信息检索,12,7、主要计算机检索系统类型,检索系统由一定的检索设备(计算机)和经过加工整理并存储在相应载体上的信息集合及其他设备共同构成的具有存储和检索功能的信息服务系统。 联机检索(online search) 脱机检索(offline search) 光盘检索(CD search) 网络检索(Internet/Web search) 全球数字图书馆系统(digital global system),云南农业职业技术学院信息检索,13,8、“关键词原则”是信息检索的根本原则,四次文献,三大系列中文网站,两类搜索引

5、擎,Keyword原则,第二节 搜索引擎的原理和发展概况,云南农业职业技术学院信息检索,15,1、网络信息资源种类,WWW信息资源:web网页 FTP信息资源:远程计算机上的文件夹 Blog信息资源:博客、播客等等信息资源 Telenet信息资源:直接调用远程主机 BBS 、新闻组信息资源:相当于论坛信息 P2P信息资源:私人计算机上的信息资源 数据库和收费网站:如三大库三大馆,云南农业职业技术学院信息检索,16,2、网络信息资源的特点,信息量大、传播广泛 信息类型多样、内容丰富 信息时效性强、变化频繁 信息分散无序、但关联程度高 信息缺乏管理、良莠不齐 所以在网络信息检索中,我们常常要借助于

6、搜索引擎来帮助我们“大海里捞针”。,云南农业职业技术学院信息检索,17,搜索引擎 Search Engine Internet网络信息检索工具,3、搜索引擎的概念,云南农业职业技术学院信息检索,18,什么是搜索引擎,云南农业职业技术学院信息检索,19,4、搜索引擎的发展历史,云南农业职业技术学院信息检索,20,搜索引擎发展历史,第三代搜索 网页搜索,云南农业职业技术学院信息检索,21,搜索引擎的起源Archie,所有搜索引擎的祖先,是1990年由蒙特利尔的McGill University三名学生发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找

7、文件的系统,于是便有了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。,云南农业职业技术学院信息检索,22,由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。 现在这个工具主要用在国外大型图书馆的信息

8、检索上。,早期的另一个搜索工具Gopher,云南农业职业技术学院信息检索,23,1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。Yahoo!-几乎成为20世纪90年代的因特网的代名词。,第二代搜索:目录式搜索 Yahoo!,云南农业职业技术学院信息检索,24,1995年,一种新的搜索引擎形式出现了元搜索引擎(Meta

9、Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。,好听不好用的元搜索引擎,云南农业职业技术学院信息检索,25,第三代搜索:网页搜索,它们都属于网页自动搜索引擎,有的还带有智能分析或FTP、P2P搜索功能,云南农业职业技术学院信息检索,26,5、搜

10、索引擎的工作原理,云南农业职业技术学院信息检索,27,云南农业职业技术学院信息检索,28,搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成: 爬行器(即机器人、蜘蛛等搜索程序) 索引生成器(即网页索引数据库) 查询检索器(即用户检索界面) 随着搜索引擎的发展,许多搜索引擎在此基础上增加特色功能。如百度增加了监控程序。,云南农业职业技术学院信息检索,29,搜索引擎的工作原理就像超市,索引生成器 (网页数据库),爬行器 (蜘蛛),查询检索器 (用户查询),因特网,云南农业职业技术学院信息检索,30,利用能够从互联网上自动收集网页的Spider系统程

11、序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。,第一步:从互联网上抓取网页,因特网,云南农业职业技术学院信息检索,31,第二步:建立索引数据库,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重 要性),然后用这些相关信息建立网 页索引数据库。,云南农业职业技术学院信息检索,32,搜索引擎的Spider一般要定期重新访问所有

12、网页(各搜索引擎的周期不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,网页的具体内容和变化情况就会反映到用户查询的结果中。,云南农业职业技术学院信息检索,33,第三步:检索界面的建立,当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回

13、给用户。,云南农业职业技术学院信息检索,34,每个搜索引擎都必须向用户提供一个良好的信息查询界面,一般包括分类目录及关键词两种信息查询途径。,云南农业职业技术学院信息检索,35,云南农业职业技术学院信息检索,36,第三节 两类搜索引擎及 网页搜索引擎,云南农业职业技术学院信息检索,38,两类搜索引擎的代表,百度、Google、Yahoo等,迅雷、天网Maze等,云南农业职业技术学院信息检索,39,第一类搜索引擎: 网页搜索引擎 以谷歌和百度为代表,云南农业职业技术学院信息检索,40,1、Google搜索引擎,Google搜索引擎诞生于斯坦福大学的一个学生宿舍里,然后迅速传播到全球的信息搜索者。

14、 Google 目前被公认为万维网上最大的搜索引擎,它提供了简单易用的免费服务,使用户能够访问一个包含超过 80 亿个网址的索引。 “Google”来自于数学名词“Googol”, Googol表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司整合网上海量信息的远大目标。地址: ,云南农业职业技术学院信息检索,41,Google 简介:,Page,佩奇。创始人之一,主管产品 的总裁。密西根安娜堡大学的荣誉毕 业生,拥有理工科学士学位。他还因 其出色的领导才能获得过多项荣誉,以奖励他对工学院 的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉学会 的会长。

15、目前他暂时从斯坦福大学计算机研究所博士班 休学,其指导教授是 Terry Winograd 博士。Google 就是由Page在斯坦福大学发起的研究项目转变而来的。,云南农业职业技术学院信息检索,42,Google 简介:,Sergey Brin,谢尔盖-布林。创始人之一,主管技术的总裁。出生于莫斯科,是马里兰大学校本部的荣誉毕业生,拥有数学专业和计算机专业的理学士学位。已取得斯坦福大学计算机专业硕士学位,目前暂时从博士班休学。29 岁的 Sergey 是美国国家科学基金会的奖学金得主。他在斯坦福 遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年 共同

16、创立了 Google。,云南农业职业技术学院信息检索,43,注意用“ ”与*功能,云南农业职业技术学院信息检索,44,Google 技术,Google 使用 PageRank 技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关,使得搜索方式发生了根本性变化。,云南农业职业技术学院信息检索,45,Google的特殊功能(部分),查找非HTML文件:可以支持13种非HTML文件的搜索,如PDF, DOC, PPT, XLS, SWF。 例如 查找doc文本文件,只需搜索“关键词 filetype:doc”即可。,云南农业职业技术学院信息检索,46,网页快照:Google 在访问网站时,会将看过的网页复制一份网页快照,以备在找不到原来的网页时使用。单击“网页快照”后,将看到 Google

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号