【精品】搜索引擎

上传人:jiups****uk12 文档编号:45560936 上传时间:2018-06-17 格式:PPT 页数:47 大小:2.50MB
返回 下载 相关 举报
【精品】搜索引擎_第1页
第1页 / 共47页
【精品】搜索引擎_第2页
第2页 / 共47页
【精品】搜索引擎_第3页
第3页 / 共47页
【精品】搜索引擎_第4页
第4页 / 共47页
【精品】搜索引擎_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《【精品】搜索引擎》由会员分享,可在线阅读,更多相关《【精品】搜索引擎(47页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎 &1 概述 &2 信息搜索工具 &3 信息检索技巧&1 概述现在,世界上的知识总量每-年就翻一番 ,internet几乎正在成为最主要的信息来源, 这样就出现了我们如何正确地利用这一功能强 大的资源获得我们需要的信息和服务,尽量避 免信息时代的一个最紧迫的问题:信息过载。 (1)Internet上的哪些资源可以用于学习的目的 ? (2)如何才能找到所需的信息资源?(3)怎样确认所获资源的可用性?网上资源的类型工具篇 1.主题目录 (Subject Directory) 2.搜索引擎(Search Engine) 3.元搜索引擎 (MetaSearch Engine)原理篇(搜索引擎)

2、 搜索引擎主要依靠被称为蜘蛛(Spider)、 机器人(robot)、爬虫(Webcrawler)、漫游 者(Webwanderer)等的网页搜索工具,而不 是人工编制。其基本工作可分成以下三个 方面: (1)首先搜索引擎派出网页搜索工具 如 Spider(蜘蛛)在 Internet网上搜索信息 ,并把信息带回搜索引擎; (2)将信息进行分类索引,建立网页数 据库; (3)通过Web服务器端软件,为用户提 供浏览器界面下的信息查询。 一般搜索引擎不仅提供键入一个或多个关键字 的简单查询,大多数还提供附加的查询选项。比 如说: 布尔运算符号:AND(与) OR(或) NOT( 非)&2 信息搜索

3、工具百度()/谷歌() 2000年1月创立于北京中关村 ,是全球最大的中文搜索引擎 。 百度每天响应来自138个国家 超过数亿次的搜索请求。用户 可以通过百度主页,在瞬间找 到相关的搜索结果,这些结果 来自于百度超过10亿的中文网 页数据库,并且,这些网页的 数量每天正以千万级的速度在 增长。 Google 是由英文单词“googol”变化而来。 “googol”是美国数学家 Edward Kasner 的侄子 Milton Sirotta 创造的一个词,表示 1 后边带有 100 个零的数字。Google 使用这个词代表公司 想征服网上无穷无尽资料的雄心。 据说,2001年的时候Google

4、每天处理大约7000 万个网页,有8000台服务器。到2003年,这一数 字已变成10万台。而现在,Google拥有超过45万 台服务器。分布在全球25个地方,而且平均每月 购入新的服务器约有3万台。Google正在美国的 俄勒冈州的哥伦比亚河河畔秘密研发新的数据中 心,其占地有两个足球场那么大! 布尔运算符号:+、-、OR +:用 “+”来表示逻辑“与”操作,只要空格就可 以了。 -:用减号“-”表示逻辑“非”操作. OR:或者 “+”和“-”号,是英文字符,而不是中文字符的“ ”和“”。 “或”操作的前后两个关键字必须是默认的“与” 查询,否则,搜索引擎将无法完成搜索。“+”、“-”和“O

5、R”的混合查询 混合查询涉及到逻辑操作符的顺序问题。一般 而言,搜索引擎按照从左往右的顺序读取操作符 号。 如果只涉及“与”操作和“非”操作,则不会产生 顺序问题,搜索结果数量和关键字顺序无关,不 过,具体搜索的结果顺序会视关键字的顺序而定 。 单纯的“或”操作也同样道理。但是,如果“或” 查询和其他两种查询混合在一起,问题就复杂了 。 问题情景 老师现在需要查找计算机技术或者信息 技术领域但是与电子技术领域无关的新技 术,请问该如何进行查询? 计算机技术 or 信息技术-电子技术? 计算机技术-电子技术 or 信息技术? -电子技术 计算机技术or 信息技术? 计算机技术or-电子技术 信息

6、技术?如何才能找到最适合你的关键词 呢 选择相关的关键词 选择具体的关键词 选用较长的关键词 别忘、错拼的单词? 关键词不是仅限于单个的词,还应包括词组和短语。&3 信息检索技巧技巧1:site语法 目的:特定站点内容搜索 操作: 进入百度主页,在搜索栏中输入: site:网址 搜索内容 就可以对这个网站进行搜索! 关键语法:site:XXX 举例: 在新浪网站中搜索“教育信息化”的网页?如何 确定搜索语句。 教育信息化 Site:http:/? 教育信息化 Site:?扩展的问题 单个站点内的搜索 不同类型的系列站点搜索 Site:edu/org/com/ 不同国别的系列站点搜索 Site:

7、cn/tw/hk/jp/kr技巧2: filetype参数 很多有价值的资料,在互联网上并非是普通的 网页,而是以Word、PowerPoint、PDF等格式存 在。百度支持对Office文档(包括Word、Excel 、PowerPoint)、Adobe PDF文档、RTF文档进 行了全文搜索。要搜索这类文档,很简单,在 普通的查询词后面,加一个“filetype:”文档类 型限定。“filetype:”后可以跟以下文件格式: DOC、XLS、PPT、PDF、RTF、ALL。其中, ALL表示搜索所有这些文件类型。 比较: doc、.doc、filetype:doc 例如:查找张五常关于交易

8、费用方面的经济学 论文。 输入“交易费用 张五常 filetype:doc”,点击结果标 题,直接下载该文档,也可以点击标题后的 “HTML版”快速查看该文档的网页格式内容。 也可以通过百度文档搜索(http:/ ),直接使用专业文档搜索功能。 (3) domain搜索参数 当我们在百度搜索引擎中随便输入任意一个域 名(去除http:/部分,例如)再进行搜 索,网页上除了能看到搜索结果外,还会出现一 个提示:“如果您在寻找正文中包含 “ 单击此链接后你会发现在搜索栏中多了一个 “domain:”参数,究竟这个参数是有什么作用的 呢? domain具有“领域、范围”的意思,顾名思义 ,如果在某一

9、网址前加上了domain就代表将在 这一范围内进行搜索。我们首先用“domain:关 键字”的形式来进行搜索,而关键字可以是网 站的域名或IP地址(例如 61.140.60.83),但必须在英文输入状态下双 引号把URL“包”起来(例如 domain:“ 会出现错误。 小提示 这个参数可以同时与其他搜索参数一起 搭配使用,只要其它搜索语法中的关键词 与该参数之间空一格即可。 在参数后的域名或IP地址可以直接使用 http:/的形式,但这样会大大减少 搜索结果的数量,建议使用时去除http:/部 分。(4)在url中搜索 在“inurl: “后加url中的文字,可以限制只 搜索url中含有这些文

10、字的网页。 例如, inurl:mp3 表示搜索url中含有“mp3“的网页 ;inurl:网页 表示搜索url中含有“网页“的 网页;inurl:china news 表示搜索url中含有 “china“和“news“的网页。 示例:查找MIDI曲“沧海一声笑”。 搜索:“inurl:midi “沧海一声笑” 结果:已搜索有关inurl:midi “沧海一声笑”的中文 (简体)网页。 共约有27项查询结果,这是第1-10 项 。 搜索用时0.34秒。 注意:“inurl:”后面不能有空格,Google也不对 URL符号如“/”进行搜索。例如,Google会把“cgi- bin/phf”中的“

11、/”当成空格处理。 “allinurl”语法返回的网页的链接中包含所有作 用关键字。这个查询的关键字只集中于网页的链 接字符串。 (5)在标题中搜索 在一个或几个关键词前加“intitle:“,可以 限制只搜索网页标题中含有这些关键词的 网页。 例如, intitle:南瓜 表示搜索标题 中含有关键词“南瓜“的网页;intitle:百度 互联网 表示搜索标题中含有关键词“百度“ 和“互联网“的网页。 “intitle”和“allintitle”的用法类似于上面的inurl和 allinurl,只是后者对URL进行查询,而前者对网 页的标题栏进行查询。网页标题,就是HTML标 记语言title中

12、之间的部分。网页设计的一个原则 就是要把主页的关键内容用简洁的语言表示在网 页标题中。因此,只查询标题栏,通常也可以找 到高相关率的专题页面。(6)并行搜索 使用“A|B”来搜索“或者包含词语A,或者 包含词语B”的网页。例如:您要查询“数字媒体”或“影视特效” 相关资料,无须分两次查询,只要输入 数 字媒体|影视特效 搜索即可。 百度会提供 跟“|”前后任何字词相关的资料,并把最相 关的网页排在前列。(7)网页快照 Baidu在访问网站时,会将看过的网页复制 一份网页快照,以备在找不到原来的网页时 使用。单击“网页快照”时,您将看到 Baidu将 该网页编入索引时的页面。 Baidu依据这些

13、快 照来分析网页是否符合您的需求。 在显示网页快照时,其顶部有一个标题, 用来提醒您这不是实际的网页。符合搜索条 件的词语在网页快照上突出显示,便于您快 速查找所需的相关资料。(8)类似网页 Google 侦察兵可以“一兵多用”。如果您对 某一网站的内容很感兴趣,但又嫌资料不够 ,Google 侦察兵会帮您找到其他有类似资料 的网站;如果您在寻找产品信息,Google 侦 察兵会为您提供相关信息,供您比较,使您 尽可货比三家;如果您在某一领域做学问, Google 侦察兵会成为您的助手,帮您快速找 到大量资料。 Google 侦察兵已为成千上万的网页找到了类似 网页,但网页越有个性,能找到的类

14、似网页就越 少。例如,您独树一帜的个人主页就很难有类似 网页。此外,如果公司有多个网址(如 和 ),Google 侦察 兵为各个网址找到的类似网页可能会有所不同。 但这种情况实属罕见,Google 侦察兵将是您出色 的助手。(9)按链接搜索 有一些词后面加上冒号对 Google 具有特 殊的含义。其中的一个词是“link:”。查询 link: 显示所有指向该网址的网页。例如, “link:”将找出所有指向 Google 主页的网页。 不能将 link: 搜索与普通关键词搜索结合 使用。 (10)手气不错 按下“手气不错”按钮将自动进入 Google 查询 到的第一个网页。您将完全看不到其它的

15、搜索结 果。使用“手气不错”进行搜索表示用于搜索网页 的时间较少而用于检查网页的时间较多。 例如,要查找 Stanford 大学的主页,只需在搜 索字段中输入“Stanford”,然后单击“手气不错”按 钮。Google 将直接带您进入 Stanford 大学的官方 主页 www.stanford.edu。 Baidu无此功能。 (11)错别字改正 Google 的错别字改正软件系统会对输入的关键 词进行自动扫描, 检查有没有错别字。如果发现 用其他字词搜索可能会有更好的结果,它能提供 相应提示来帮助纠正可能有的错别字。例如,搜 索“互连网”,Google 会自动提示 “您是不是要找 :互联网”。如果您点击 “互联网”,Google 将以“ 互联网”作为关键词进行搜索。 因为Google 的错别字改正软件系统是建立在互 联网上所能找到的所有词条之上,它能够提示常 用人名及地名的最常见的书写方式,这是一般的 错别字改正软件所不及的。(12)中英文字典 Google 给中英文单词互译带来

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号