搜索引擎的使用t整理.ppt

上传人:摩西的****12 文档编号:133236352 上传时间:2020-05-25 格式:PPT 页数:116 大小:4.05MB
返回 下载 相关 举报
搜索引擎的使用t整理.ppt_第1页
第1页 / 共116页
搜索引擎的使用t整理.ppt_第2页
第2页 / 共116页
搜索引擎的使用t整理.ppt_第3页
第3页 / 共116页
搜索引擎的使用t整理.ppt_第4页
第4页 / 共116页
搜索引擎的使用t整理.ppt_第5页
第5页 / 共116页
点击查看更多>>
资源描述

《搜索引擎的使用t整理.ppt》由会员分享,可在线阅读,更多相关《搜索引擎的使用t整理.ppt(116页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎的使用 主讲杨青 搜索引擎的定义 所谓搜索引擎 就是在Internet上执行信息搜索的专门站点 它们可以对主页进行分类与搜索 如果输入一个特定的搜索词 搜索引擎就会自动进入索引清单 将所有与搜索词相匹配的内容找出 并显示一个指向存放这些信息的连接清单 例 搜索引擎 搜索引擎是专门提供信息查询服务的网站安装在其服务器上的一种能在网上漫游并搜集它所得到的信息 同时自动生成本地索引的软件 它是因特网上最为有效的信息导航工具 是网上冲浪的得力助手 由于这种服务都是一些著名的站点提供的 所以有人直接称这些站点即为搜索引擎 在万维网中 也有人把装有这种软件的WWW服务器视为搜索引擎 他主要分为 单

2、搜索引擎 用于检索的单个搜索引擎 如 百度 google多搜索引擎 多搜索引擎是一个搜索引擎包含多个单搜索引擎 其作用是将输入的检索词在所包含的多个单搜索引擎中进行查找 并将命中的搜索引擎和其查到的页面数列出 帮助用户选择合适的搜索引擎 如 网址之家 搜索引擎的起源 Archie 所有搜索引擎的祖先 是1990年由蒙特利尔的McGillUniversity三名学生发明的Archie ArchieFAQ AlanEmtage等想到了开发一个可以用文件名查找文件的系统 于是便有了Archie Archie是第一个自动索引互联网上匿名FTP网站文件的程序 但它还不是真正的搜索引擎 Archie是一个

3、可搜索的FTP文件名列表 用户必须输入精确的文件名搜索 然后Archie会告诉用户哪一个FTP地址可以下载该文件 早期的另一个搜索工具Gopher 由于Archie深受欢迎 受其启发 NevadaSystemComputingServices大学于1993年开发了一个Gopher GopherFAQ 搜索工具Veronica VeronicaFAQ Jughead是后来另一个Gopher搜索工具 现在这个工具主要用在国外大型图书馆的信息检索上 第二代搜索 目录式搜索Yahoo 1994年4月 斯坦福大学的两名博士生 美籍华人杨致远和DavidFilo共同创办了 Yahoo 随着访问量和收录链接

4、数的增长 Yahoo目录开始支持简单的数据库搜索 因为Yahoo 的数据是手工输入的 所以不能真正被归为搜索引擎 事实上只是一个可搜索的目录 Yahoo 中收录的网站 因为都附有简介信息 所以搜索效率明显提高 Yahoo 几乎成为20世纪90年代的因特网的代名词 好听不好用的元搜索引擎 1995年 一种新的搜索引擎形式出现了 元搜索引擎 MetaSearchEngine 用户只需提交一次搜索请求 由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎 并将从各独立搜索引擎返回的所有查询结果 集中起来处理后再返回给用户 第一个元搜索引擎 是Washington大学硕士生EricSelberg

5、和OrenEtzioni的Metacrawler 元搜索引擎概念上好听 但搜索效果始终不理想 所以没有哪个元搜索引擎有过强势地位 第三代搜索 网页搜索 它们都属于网页自动搜索引擎 有的还带有智能分析或FTP P2P搜索功能 搜索引擎工作原理 搜索引擎并不真正搜索互联网 它搜索的实际上是预先整理好的网页索引数据库 搜索引擎至少由三部分组成 爬行器 即机器人 蜘蛛等搜索程序 索引生成器 即网页索引数据库 查询检索器 即用户检索界面 随着搜索引擎的发展 许多搜索引擎在此基础上增加特色功能 如百度增加了监控程序 搜索引擎的工作原理就象超市 索引生成器 网页数据库 爬行器 蜘蛛 查询检索器 用户查询 因

6、特网 第一步 从互联网上抓取网页 利用能够从互联网上自动收集网页的Spider系统程序 自动访问互联网 并沿着任何网页中的所有URL爬到其它网页 重复这过程 并把爬过的所有网页收集回来 因特网 第二步 建立索引数据库 由分析索引系统程序对收集回来的网页进行分析 提取相关网页信息 包括网页所在URL 编码类型 页面内容包含的关键词 关键词位置 生成时间 大小 与其它网页的链接关系等 根据一定的相关度算法进行大量复杂计算 得到每一个网页针对页面内容中及超链中每一个关键词的相关度 或重要性 然后用这些相关信息建立网页索引数据库 第二步 建立索引数据库 搜索引擎的Spider一般要定期重新访问所有网页

7、 各搜索引擎的周期不同 可能是几天 几周或几月 也可能对不同重要性的网页有不同的更新频率 更新网页索引数据库 以反映出网页内容的更新情况 增加新的网页信息 去除死链接 并根据网页内容和链接关系的变化重新排序 这样 网页的具体内容和变化情况就会反映到用户查询的结果中 第三步 检索界面的建立 当用户输入关键词搜索后 由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页 因为所有相关网页针对该关键词的相关度早已算好 所以只需按照现成的相关度数值排序 相关度越高 排名越靠前 最后 由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户 第三步 检索界面的建立 每个搜索引擎都

8、必须向用户提供一个良好的信息查询界面 一般包括分类目录及关键词两种信息查询途径 搜索引擎检索方法 1 分类检索所谓分类检索就是指利用搜索引擎提供的分类目录 由上级类目逐级向下级类目查询的方式 各网站通过人工分类建立上下级所属类目 这种方式较为直观 便于族性检索 利于查全率 但查准率较低 且各搜索站点分类不一 为使用带来一定困难 搜狐 新浪都属于一种分类搜索 2 关键词检索关键词查询是搜索引擎提供的一种快速 高效的查询方式 进入搜索引擎网页后 在关键词查询框中输入想要查询的关键词 然后单击 查询 按扭即可 这种方式便于特性检索 利于提高查准率 1 简单关键词查询 2 逻辑关系查询 搜索引擎检索方

9、法 两类搜索引擎及网页搜索引擎 两类搜索引擎的代表 百度 Google Yahoo等 迅雷 天网Maze等 第一类搜索引擎 网页搜索引擎以Google和百度为代表 1 Google搜索引擎 Google搜索引擎诞生于斯坦福大学的一个学生宿舍里 然后迅速传播到全球的信息搜索者 Google目前被公认为万维网上最大的搜索引擎 它提供了简单易用的免费服务 使用户能够访问一个包含超过80亿个网址的索引 Google 来自于数学名词 Googol Googol表示一个1后面跟着100个零 GoogleInt 使用这一术语体现了公司整合网上海量信息的远大目标 地址 Google简介 LarryPage 创

10、始人之一 主管产品的总裁 密西根安娜堡大学的荣誉毕业生 拥有理工科学士学位 他还因其出色的领导才能获得过多项荣誉 以奖励他对工学院的贡献 他曾担任密西根大学EtaKappaNu荣誉学会的会长 目前他暂时从斯坦福大学计算机研究所博士班休学 其指导教授是TerryWinograd博士 Google就是由Page在斯坦福大学发起的研究项目转变而来的 Google简介 SergeyBrin 创始人之一 主管技术的总裁 出生于莫斯科 是马里兰大学校本部的荣誉毕业生 拥有数学专业和计算机专业的理学士学位 已取得斯坦福大学计算机专业硕士学位 目前暂时从博士班休学 29岁的Sergey是美国国家科学基金会的奖

11、学金得主 他在斯坦福遇到了LarryPage并参与了后来成为Google的研究项目 他们于1998年共同创立了Google Google简介 google的成功得益于其强大的功能和独到的特点 google检索网页数量达24亿 搜索引擎中排名第一 google支持多达132种语言 包括简体中文和繁体中文 google网站只提供搜索引擎功能 没有花里胡哨的累赘 google速度极快 年初时据说有15000多台服务器 200多条t3级宽带 Google简介 google的专利网页级别技术pagerank能够提供准确率极高的搜索结果 google具有独到的图片搜索功能 google具有强大的新闻组搜索

12、功能 google具有二进制文件搜索功能 pdf doc swf Google的特殊功能 部分 查找非HTML文件 可以支持13种非HTML文件的搜索 如PDF DOC PPT XLS SWF 例如查找doc文本文件 只需搜索 关键词filetype doc 即可 网页快照 Google在访问网站时 会将看过的网页复制一份网页快照 以备在找不到原来的网页时使用 单击 网页快照 后 将看到Google将该网页编入索引时的页面 Google依据这些快照来分析网页是否符合您的需求 不好用 类似网页 如果你对某一网站的内容很感兴趣 但又嫌资料不够 单击 类似网页 Google会帮你找到其他有类似资料的

13、网站 Google的特殊功能 按链接搜索 查询 link 显示所有指向该网址的网页 例如 link 将找出所有指向网易主页的网页 手气不错 按下 手气不错 按钮将自动进入Google查询到的第一个网页 指定网域 如果要在某个特定的域或站点中进行搜索时可输入 site com 如在新浪网中搜索 新闻 可输入 新闻site Google的特殊功能 其它功能 中英文字典 英译汉输入 fyapple 汉译英输入 翻译苹果 定义 输入 定义 文献 或 define HTML 计算器 Google为用户提供了一个内置计算器 天气查询 检索 哈尔滨天气 或 shanghaitq Google返回的网站链接会

14、提供最新的当地天气状况和天气预报 邮编区号 输入 邮编哈尔滨 YB150000 区号0451 哈尔滨QH 手机号码 输入 13123456789 可查询手机号的归属地 股票查询 输入 中国石化股票 或 GP600028 可查询股票价格及股市行情 图片搜索 google自称可以检索390 000 000张图片 并称自己为 互联网上最好用的图像搜索工具 从使用结果来看 google的图片搜索的确不错 但个人以为比altavista的还是要差一些 主要体现在检索图片数量比不上av 匹配度比av的图片搜索器也差了些 但altavista国内用户无法正常访问因此对中国用户而言 google的图片搜索引擎

15、已经是最好的 图片搜索 google首页点击 图像 链接就进入了google的图像搜索界面 你可以在关键字栏位内输入描述图像内容的关键字 如 britneyspears 就会搜索到大量的小甜甜布兰妮的图片 图片文件名完全符合关键字的结果排列比较靠前 然后才按照普通的页面搜索时的标准排列 图片搜索 google图像搜索目前支持的语法包括基本的搜索语法如 or site 和 filetype 其中 filetype 的后缀只能是几种限定的图片类似 如jpg gif等 示例 查找新浪网上本拉登的图片搜索 拉登or拉丹site 结果 搜索有关拉登or拉丹site 的图片 共有6项查询结果 这是第1 6

16、项 搜索用时0 36秒 图片搜索 作为专门的图片搜索引擎 实际上有其特殊的用途 举个例子 互联网上本拉登的照片成千上万 但是 它们都是分散的 往往随机的分布于各种新闻报道中 如果用搜索图片库的方式 最容易想到的如 benladinphoto 来搜索本拉登的照片 显然是不恰当的 因为很少有人专门为拉登建一个在线相册 在这个时候 就派上用场了 网页快照 网页快照是google抓下来缓存在服务器上的网页 它有三个作用 第一 如果原地址打开很慢 那么可以直接查看google缓存页面 因为google服务器速度极快 第二 如果原链接已经死掉或者因为网络的原因暂时链接不通 那么可以通过google快照看到该页面信息 当然 快照内容不是该页最新页面 第三 如果打开的页面信息量巨大 一下子找不到关键词所在位置 那么可以通过google快照 因为快照中google用黄色表明关键字位置 网页翻译 你懂英文 但是你不见得就懂德文 法文 拉丁文 如果搜索出来的页面是这些语言怎么办 呵呵 google提供了网页翻译功能 虽然目前只支持有限的拉丁语 法语 西班牙语 德语和葡萄牙文 这是个杰出功能 Google其他

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号