搜索引擎的工作原理课件

资源描述

《搜索引擎的工作原理课件》由会员分享，可在线阅读，更多相关《搜索引擎的工作原理课件（98页珍藏版）》请在金锄头文库上搜索。

1、,封面,SEO 搜索引擎优化技术,SEO是一种思想！最实用SEO策略指导。技术操作也没那么难。,第 1 页,搜索引擎的工作原理,1. 机器人、蜘蛛、爬虫 2. robots.txt文件 3. 搜索引擎的分类搜索引擎的工作原理,第 2 页,问题：,网站发布到网上，就会在搜索引擎中搜索到吗？,第 3 页,方法一：利用搜索引擎提供的网站登录入口；方法二：通过与外部网站建立链接关系。,加入搜索引擎列表的方法,第 4 页,雅虎的网站登录地址： ,百度的网站登录地址：,Google的网站登录地址： ,常见的网站登录地址,第 5 页,搜索引擎有自己的域名列表，搜索引擎的“蜘蛛”程序通过URL列表出发

2、，通过URL抓取并存储原始页面。,提示！,第 6 页,问题：,什么是“蜘蛛”程序？,第 7页,种子URL,页面1,页面2,页面3,页面N,结束链接,第 8 页,思考：,爬虫在检索网页时到底在做什么？,第 9 页,以下情况不希望网页被爬虫索引,第 10 页,问题：,怎样才能阻止“爬虫”爬行页面呢？,robots.txt,第 11 页,当一个搜索引擎robot访问一个站点时，它首先爬行检查该网站根目录下是否存在robots.txt文件。如果存在，搜索引擎robot就会按照该文件中的内容来确定访问范围；如果不存在，那么搜索引擎robot就沿着链接抓取。,robots.txt文件,第 12 页,r

3、obots.txt文件必须放置在站点的根目录下； robots.txt文件名必须全部小写。,注意：,第 13 页,User-agent:*,Disallow:/,该文件内容的意思就是：任何爬虫都不能爬行所有目录。,robots.txt文件内容的基本形式,第 14 页,名称搜索引擎,BaiduSpider Googlebot Yahoo!+Slurp+China Sogou+web+spider MSNBOT ,常见的搜索引擎robot的名称,第 15 页,robots.txt文件用法举例,User-agent: *,Disallow:,1. 允许所有的robots访问,第 16 页,robo

4、ts.txt文件用法举例,User-agent: *,Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /privat/,2. 禁止所有搜索引擎访问网站的几个部分,第 17 页,robots.txt文件用法举例,3. 禁止某个搜索引擎的访问,User-agent: baiduspider,Disallow: /,第 18 页,robots.txt文件用法举例,4. 只允许某个搜索引擎的访问,User-agent: baiduspider,Disallow:,User-agent: *,Disallow: /,第 19 页,5. 对于Googlebot

5、，拦截某目录内除某个文件之外的所有页面,User-agent: Googlebot Disallow: /helpAllow: /help/myfile.html,robots.txt文件用法举例,第 20 页,robots.txt文件用法举例,6. 对于BaiduSpider，拦截对所有以private 开头的子目录,User-agent: BaiduSpider Disallow:/private*/,第 21页,robots.txt文件用法举例,7. 对于BaiduSpider，拦截所有包含“？”号的网址(即禁止访问网站中所有的动态页面)。,User-agent: BaiduSpide

6、r Disallow: /*?*,第 22页,8.仅禁止Baiduspider抓取.jpg格式图片,User-agent: BaiduspiderDisallow: .jpg$,robots.txt文件用法举例,第 23页,robots.txt文件用法举例,9. 仅禁止Baiduspider抓取.jpg格式图片,User-agent: BaiduspiderDisallow: .jpg$,第 24页,robots.txt文件用法举例,10. 仅允许Baiduspider抓取网页和.gif格式图片,User-agent: BaiduspiderAllow: .gif$Disallow: .jpg

7、$Disallow: .jpeg$ Disallow: .png$Disallow: .bmp$,第 25页,产品名称,对应的User-agent,无线搜索图片搜索视频搜索新闻搜索百度搜藏百度联盟网页以及其他搜索,Baiduspider-mobile Baiduspider-image Baiduspider-video Baiduspider-news Baiduspider-favo Baiduspider-cpro Baiduspider,百度产品对应的User-agent,第 26页,11. 仅禁止百度视频的Baiduspider-video 抓取网页,User-agent

8、: Baiduspider-videoDisallow: /,robots.txt文件用法举例,第 27页,谷歌robots.txt 百度robots.txt ,案例,第 28页,1. 网站上的所有文件都需要蜘蛛抓取，就没必要添加robots.txt文件了。反正如果该文件不存在，所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。,思考：,第 29页,思考：,2. 在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取，这样可以增加网站的收录率。,第 30页,思考：,3. 搜索蜘蛛抓取网页太浪费服务器资源，所以要在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。

9、,第 31页,并不是每个网站管理员都有Web服务器的操作权限，但很多管理员都需要控制爬虫在网站上的行为。在没有Web服务器的操作权限的情况下，就不能使用robots.txt文件，取而代之的是通过网页中的robots元标签来控制爬虫对网页的访问。,robots元标签,第 32页, web title ,不允许robot索引本网页的内容,不允许robot跟踪网页的链接,robots元标签,第 33页,robots元标签,第 34页,robots元标签与robots.txt文件的区别。,robots元标签不能控制单个爬虫的行为，要么都允许，要么都禁止。,思考：,第 35页,全文搜索引擎目录搜索引擎

10、元搜索引擎,目录搜索引擎http:/www.dmoz.org,搜索引擎的分类,第 36页,搜索引擎优化的主要任务之一就是提高网站的搜索引擎友好性，因此，搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系，研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此，学习搜索引擎优化应该从了解搜索引擎的工作原理开始。,搜索引擎的工作原理,第 37页,搜索引擎的工作原理,第 38页,搜索引擎的工作原理,页面收录,页面收录就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程，为搜索引擎开展各项工作提供了数据。,第 39页,搜索引擎的工作原理,页面分析,对原始页面建立索引，实现对页

11、面的快速定位；提取页面的正文信息，并对正文信息进行切词以及为这此词建立索引，从而得到页面与关键字的之间对应关系；对所有关键字进行重组，并建立关键字与网页间对应关系的反向索引列表，从而实现在根据关键字快速定位至相应的网页。,第 40页,搜索引擎的工作原理,页面排序,搜索引擎结合页面的内外因素计算出页面与某个关键字的相关程度，从而得到与该关键字相关的页面排序列表。,第 41页,搜索引擎的工作原理,关键字查询,搜索引擎接收来自用户的查询请求，并对查询信息进行切词及匹配后，再向用户返回相应的页面排序列表。,第 42页,页面收录流程,URL列表,URL列表,抓取页面,原始页面,提取URL,存取,页面

12、收录,第 43页,在互联网中，URL是每个页面的入口地址，搜索引擎蜘蛛程序就是通过URL抓取到页面的。搜索引擎蜘蛛程序从URL列表出发，通过URL抓取并存储原始页面;同时，提取原始页面中的URL资源并加入到URL列表中。如此不断地循环，就可以从互联网中获取到足够多的页面。,页面收录,第 44页,URL,页面的入口,域名,网站的入口,注意：,所以：,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的域名列表，再通过域名进入相应的网站，从而抓取这个网站中的页面。,页面收录,第 45页,页面收录原理,URL列表,抓取页面,提取URL,内部URL,域名URL,存储原始页面,未访问,未访问,页

13、面收录,第 46页,页面收录方式,页面收录,第 47页,广度优先,提示：在对网站进行优化时，把网站中相对重要的信息展示在层次较浅的页面上。,页面收录,第 34页,页面收录,广度优先分析,第48页,页面收录,深度优先,第 49页,通过深度优先的抓取方式，搜索引擎可以抓取到网站中较为隐蔽、冷门的页面，这样才能满足更多用户的需求。,提示：,第 50页,页面收录,第 51页,用户提交,页面收录,网站管理员只需要把网站页面的URL地址按照指定的格式制作成文件，提交给搜索引擎，搜索引擎就可以通过该文件对网站中的页面进行抓取及更新。,第 52页,用户提交方式的优点：,（1）提高了搜索引擎抓取页面的效率及质

14、量；（2）对于网站本身来说，也大大提高了网站页面被收录的数量。,页面收录,第 53页,为了提高抓取页面的效率及质量，搜索引擎应结合多种方式去抓取页面。例如，先使用广度优先的方式，把抓取范围铺得尽可能宽，获取到尽可能多的重要页面；再使用深度优先的方式，抓取更多隐蔽的页面；最后结合用户提交的信息，抓取那些被遗漏的页面。,注意：,第 54页,页面维护方式,定期抓取增量抓取分类定位抓取,页面收录,第 55页,页面收录,定期抓取,搜索引擎周期性地对网站中已经收录的页面进行全面更新。把抓取到的新页面替换原有的旧页面，删除不存在的页面，并存储新发现的页面。,第 56页,注意：,周期性更新针对的是全部已

15、经收录的页面，因此更新周期会比较长。例如，Google一般3060天才能对已经收录的页面进行更新。因此这种方式适合维护页面较少，内容更新缓慢的网站。,第 57页,页面收录,增量抓取,通过对已抓取的页面进行定时监控，实现对页面的更新及维护，搜索引擎只需对重要页面进行定时监控，使页面的更新周期缩短。,第 58页,页面收录,增量抓取优点：,大大缩减搜索引擎的抓取时间；可以及时发现新内容，新链接；可以及时删除不存在的信息。,第 59页,分类定位抓取,是指根据页面的类别或性质而制定相应更新周期的页面监控方式。例如，对“新闻资讯”页面更新周期可以精确到每分钟，而“资源下载”页面的更新周期可以定为一天或

16、更长。,页面收录,首页、内容页,第 60页,实时性高的论坛页,网站中存在多种性质的页面，维护也是结合多种方式。,防止遗漏某些页面,增量抓取,分类定位抓取,定期抓取,页面收录,第 61页,页面的存储,页面收录,第 62页,思考：,如何知道网站是否被收录？,百度： site:+网址，网址不需要带http,Google： site:+网址，网址不需要带http,雅虎：通过雅虎提供的站点管理器 ,第 63页,页面收录只是搜索引擎工作的一个基础环节，用户在使用搜索引擎进行查询的时候，使用的是一个词或短语，而到目前为止，搜索引擎仅能提供整个页面，不能返回与用户查询条件相匹配的信息。因此搜索引擎还需对原始页面进行分析、处理。,页面分析,第 64页,对网页中非正文信息的过滤。其中，最重要的就是对网页中标签

展开阅读全文