搜索引擎基本资料

上传人:kms****20 文档编号:40527406 上传时间:2018-05-26 格式:DOC 页数:5 大小:45.50KB
返回 下载 相关 举报
搜索引擎基本资料_第1页
第1页 / 共5页
搜索引擎基本资料_第2页
第2页 / 共5页
搜索引擎基本资料_第3页
第3页 / 共5页
搜索引擎基本资料_第4页
第4页 / 共5页
搜索引擎基本资料_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《搜索引擎基本资料》由会员分享,可在线阅读,更多相关《搜索引擎基本资料(5页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎搜索引擎一、搜索引擎的概念一、搜索引擎的概念 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上 的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索 服务的系统。 新竞争力通过对搜索引擎营销的规律深入研究认为:搜索引擎推广是基于网站内容 的推广这就是搜索引擎营销的核心思想。这句话说起来很简单,如果仔细分析会发现, 这句话的确包含了搜索引擎推广的一般规律。本文作者在“网站推广策略之内容推广思想漫 谈”一文中提出一个观点:“网站内容不仅是大型 ICP 网站的生命源泉,对于企业网站网络 营销的效果同样是至关重要的”。因为网站

2、内容本身也是一种有效的网站推广手段,只是这 种推广需要借助于搜索引擎这个信息检索工具,因此网站内容推广策略实际上也就是搜索 引擎推广策略的具体应用。二、搜索引擎的分类二、搜索引擎的分类 1、全文索引全文索引引擎是名副其实的搜索引擎,国外代表有 Google,国内则有著名的百度搜索。 它们从互联网提取各个网站的信息(以网页文字为主) ,建立起数据库,并能检索与用户查 询条件相匹配的记录,按一定的排列顺序返回结果。 根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的网页抓取、索 引、检索系统(Indexer) ,有独立的“蜘蛛”(Spider)程序、或爬虫(Crawler) 、或“机器

3、人” (Robot)程序(这三种称法意义相同) ,能自建网页数据库,搜索结果直接从自身的数据 库中调用,上面提到的 Google 和百度就属于此类;另一类则是租用其他搜索引擎的数据库, 并按自定的格式排列搜索结果,如 Lycos 搜索引擎。 2、目录索引目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类 的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词 (Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的 Yahoo、新浪分类目 录搜索。 3、元搜索引擎元搜索引擎(META Search Engine)接受用户查询请求后,同时在

4、多个搜索引擎上搜 索,并将结果返回给用户。著名的元搜索引擎有 InfoSpace、Dogpile、Vivisimo 等,中文元 搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索 结果,如 Dogpile;有的则按自定的规则将结果重新排列组合,如 Vivisimo。 4、垂直搜索引擎垂直搜索引擎为 2006 年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂 直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说 搜索、视频搜索等等) ,在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台 检索服务器,垂直搜索需要的硬件成本低、用

5、户需求特定、查询的方式多样。 5、其他非主流搜索引擎形式:1、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索 引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如 HotBot 在 2002 年底推出的 搜索引擎。 2、门户搜索引擎:AOL Search、MSN Search 等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。 3、免费链接列表(Free For All Links 简称 FFA):一般只简单地滚动链接条目,少部 分有简单的分类目录,不过规模要比 Yahoo!等目录索引小很多。 三、搜索引擎的工作原理三、搜索引

6、擎的工作原理 1、抓取网页每个独立的搜索引擎都有自己的网页抓取程序(spider) 。Spider 顺着网页中的超链接, 连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍, 理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。 2、处理网页搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要 的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文) 、判断网页类 型、分析超链接、计算网页的重要度/丰富度等。 3、提供检索服务用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了 用户便于判断,除了网页标题和

7、URL 外,还会提供一段来自网页的摘要以及其他信息。 四、全文搜索引擎四、全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。 搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如 Google 一 般是 28 天) ,搜索引擎主动派出“蜘蛛”程序,对一定 IP 地址范围内的互联网站进行检索, 一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。蜘蛛搜索引擎另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内 (2 天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数 据库,以备用户查

8、询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不 保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜 索引擎有更多机会找到你并自动将你的网站收录。 当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求 内容相符的网站,便采用特殊的算法通常根据网页中关键词的匹配程度,出现的位置/ 频次,链接质量等计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序 将这些网页链接返回给用户。 这种引擎它的特点是搜全率比较高。 五、目录索引五、目录索引与全文搜索引擎相比,目录索引有许多不同之处。 首先,搜索引擎属于自动网站检索,而目录索引则完全

9、依赖手工操作。用户提交网站 后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主 观印象,决定是否接纳你的网站。 其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。 而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象 Yahoo 这样 的超级索引,登录更是困难。 此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则 必须将网站放在一个最合适的目录(Directory) 。 最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度 看,我们拥有更多的自主权;而目录索引则要求必须手工另外填

10、写网站信息,而且还有各 种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可 以随时对其进行调整,当然事先是不会和你商量的。 目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信 息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜 索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分 层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外) 。 目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现 在也提供目录搜索,如 Google 就借用 Open Di

11、rectory 目录提供分类查询。而象 Yahoo! 这 些老牌目录索引则通过与 Google 等搜索引擎合作扩大搜索范围(注) 。在默认搜索模式下, 一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等; 而另外一些则默认的是网页搜索,如 Yahoo。 这种引擎的特点是找的准确率比较高。 六、搜索引擎的发展史六、搜索引擎的发展史互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工 整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时, 通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜 索引擎

12、,但从严格意义上讲,它并不是搜索引擎。 1990 年,加拿大麦吉尔大学(University of McGill)计算机学院的师生开发出 Archie。当时,万维网(World Wide Web)还没有出现,人们通过 FTP 来共享交流资源。 Archie 能定期搜集并分析 FTP 服务器上的文件名信息,提供查找分别在各个 FTP 主机中的 文件。用户必须输入精确的文件名进行搜索,Archie 告诉用户哪个 FTP 服务器能下载该文 件。虽然 Archie 搜集的信息资源不是网页(HTML 文件) ,但和搜索引擎的基本工作方式 是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Arch

13、ie 被公认为现代搜 索引擎的鼻祖。 搜索引擎的起源:所有搜索引擎的祖先,是 1990 年由 Montreal 的 McGill University 三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的 Archie(Archie FAQ) 。Alan Emtage 等想到了开发一个可以用文件名查找文件的系统,于是便有了 Archie。Archie 是第一个自动索引 互联网上匿名 FTP 网站文件的程序,但它还不是真正的搜索引擎。Archie 是一个可搜索的 FTP 文件名列表,用户必须输入精确的文件名搜索,然后 Archie 会告诉用户哪一个 FT

14、P 地 址可以下载该文件。 由于 Archie 深受欢迎,受其启发,Nevada System Computing Services 大学于 1993 年开发了一个 Gopher(Gopher FAQ)搜索工具 Veronica(Veronica FAQ) 。 Jughead 是后来另一个 Gopher 搜索工具。 搜索引擎的影响 一、搜索引擎给网吧行业带来的影响走进网吧,不难发现各个网吧内的电脑浏览器首页或工具条上都会有 google 或百度的 标志。百度甚至还推出了网吧联盟,可见搜索引擎们对网吧行业都格外的青睐。现在我们 常用的搜索引擎无非就是百度和 google 两种。从百度方面来看,百

15、度联盟可以算是目前唯 一一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而 google 方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷歌的新型合作伙 伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。谷歌对网吧 市场的关注,表明谷歌注意到网吧作为中国互联网市场的特色之一。由于我国 PC 拥有量 远落后于美国等西方国家,网吧作为网民主要上网地点的比例逐年在上升,我国网民在网 吧上网的比例偏高。据 CNNIC 第 20 次中国互联网络发展状况统计报告显示,超过 1/3(37.2)的网民表示经常去网吧上网,比 2006 年 12 月的 32.3

16、高了 5 个百分点,第 一次超过网民在工作单位上网的比例而成为第二大上网场所。 七、搜索引擎对网站的影响七、搜索引擎对网站的影响一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是 通过搜索引擎而来的流量。如果搜索引擎能够能多能有效的抓取网站内容,那么对于网站 的好处是不言而喻的。所以,SEO 也应运而生了。 在百度和谷歌两大搜索引擎的工作中,百度的工作周期相对来说短一些,百度大约在 10 天左右重新访问网站一次,Google 大约在 15 天左右重新访问一次网站。由于一天之内 不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也 是加快蜘蛛收录网站内容的重要环节。 搜索引擎作用搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研 究网站用户行为的 一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地 促进产品/服务的销售, 而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策 略具有重要价值。 1、从网络营销的环境看,搜

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号