【网站优化问】搜索引擎原理抓取

上传人:豆浆 文档编号:37541638 上传时间:2018-04-18 格式:DOC 页数:5 大小:37.50KB
返回 下载 相关 举报
【网站优化问】搜索引擎原理抓取_第1页
第1页 / 共5页
【网站优化问】搜索引擎原理抓取_第2页
第2页 / 共5页
【网站优化问】搜索引擎原理抓取_第3页
第3页 / 共5页
【网站优化问】搜索引擎原理抓取_第4页
第4页 / 共5页
【网站优化问】搜索引擎原理抓取_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《【网站优化问】搜索引擎原理抓取》由会员分享,可在线阅读,更多相关《【网站优化问】搜索引擎原理抓取(5页珍藏版)》请在金锄头文库上搜索。

1、众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。下图为 spider 抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns 解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系

2、统。spider即是通过这种系统的通力合作完成对互联网页面的抓取工作。spider 主要抓取策略类型上图看似简单,但其实 spider 在抓取过程中面对的是一个超级复杂的网络环境,为了使系统可以抓取到尽可能多的有价值资源并保持系统及实际环境中页面的一致性同时不给网站体验造成压力,会设计多种复杂的抓取策略。以下做简单介绍:1、抓取友好性互联网资源庞大的数量级,这就要求抓取系统尽可能的高效利用带宽,在有限的硬件和带宽资源下尽可能多的抓取到有价值资源。这就造成了另一个问题,耗费被抓网站的带宽造成访问压力,如果程度过大将直接影响被抓网站的正常用户访问行为。因此,在抓取过程中就要进行一定的抓取压力控制,

3、达到既不影响网站的正常用户访问又能尽量多的抓取到有价值资源的目的。通常情况下,最基本的是基于 ip 的压力控制。这是因为如果基于域名,可能存在一个域名对多个 ip(很多大网站)或多个域名对应同一个 ip(小网站共享 ip)的问题。实际中,往往根据 ip及域名的多种条件进行压力调配控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时百度 spider 将优先按照站长的要求进行抓取压力控制。对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如夜深人静月黑风高时候抓取的可能就会快一些,

4、也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断的调整。对于不同站点,也需要不同的抓取速度。2、多种 url 重定向的识别互联网中一部分网页因为各种各样的原因存在 url 重定向状态,为了对这部分资源正常抓取,就要求 spider 对 url 重定向进行识别判断,同时防止作弊行为。重定向可分为三类:http 30x重定向、meta refresh 重定向和 js 重定向。另外,百度也支持 Canonical 标签,在效果上可以认为也是一种间接的重定向。3、抓取优先级调配由于互联网资源规模的巨大以及迅速的变化,对于搜索引擎来说全部抓取到并合理的更新保持一致性几乎是不可能的事情,因此这就

5、要求抓取系统设计一套合理的抓取优先级调配策略。主要包括:深度优先遍历策略、宽度优先遍历策略、pr 优先策略、反链策略、社会化分享指导策略等等。每个策略各有优劣,在实际情况中往往是多种策略结合使用以达到最优的抓取效果4、重复 url 的过滤spider 在抓取过程中需要判断一个页面是否已经抓取过了,如果还没有抓取再进行抓取网页的行为并放在已抓取网址集合中。判断是否已经抓取其中涉及到最核心的是快速查找并对比,同时涉及到 url 归一化识别,例如一个 url 中包含大量无效参数而实际是同一个页面,这将视为同一个 url 来对待。5、暗网数据的获取互联网中存在着大量的搜索引擎暂时无法抓取到的数据,被称

6、为暗网数据。一方面,很多网站的大量数据是存在于网络数据库中,spider 难以采用抓取网页的方式获得完整内容;另一方面,由于网络环境、网站本身不符合规范、孤岛等等问题,也会造成搜索引擎无法抓取。目前来说,对于暗网数据的获取主要思路仍然是通过开放平台采用数据提交的方式来解决,例如“百度站长平台”“百度开放平台”等等。6、抓取反作弊spider 在抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。例如分析 url 特征、分析页面大小及内容、分析站点规模对应抓取规模等等。造成造成 spider 抓取异常的原因抓取异常的原因有一些网页

7、,内容优质,用户也可以正常访问,但是 Baiduspider 却无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站,百度搜索引擎会认为网站存在用户体验上的缺陷,并降低对网站的评价,在抓取、索引、排序上都会受到一定程度的负面影响,最终影响到网站从百度获取的流量。下面向站长介绍一些常见的搜索引擎抓取异常原因:1,服务器连接异常服务器连接异常会有两种情况:一种是站点不稳定,Baiduspider 尝试连接您网站的服务器时出现暂时无法连接的情况;一种是 Baiduspider 一直无法连接上您网站的服务器。造成服务

8、器连接异常的原因通常是您的网站服务器过大,超负荷运转。也有可能是您的网站运行不正常,请检查网站的 web 服务器(如 apache、iis)是否安装且正常运行,并使用浏览器检查主要页面能否正常访问。您的网站和主机还可能阻止了 Baiduspider 的访问,您需要检查网站和主机的防火墙。2,网络运营商异常:网络运营商分电信和联通两种,Baiduspider 通过电信或网通无法访问您的网站。如果出现这种情况,您需要与网络服务运营商进行联系,或者购买拥有双线服务的空间或者购买 cdn 服务。3,DNS 异常:当 Baiduspider 无法解析您网站的 IP 时,会出现 DNS 异常。可能是您的网

9、站 IP 地址错误,或者域名服务商把 Baiduspider 封禁。请使用 WHOIS 或者 host 查询自己网站 IP 地址是否正确且可解析,如果不正确或无法解析,请与域名注册商联系,更新您的 IP 地址。4,IP 封禁:IP 封禁为:限制网络的出口 IP 地址,禁止该 IP 段的使用者进行内容访问,在这里特指封禁了BaiduspiderIP。当您的网站不希望 Baiduspider 访问时,才需要该设置,如果您希望Baiduspider 访问您的网站,请检查相关设置中是否误添加了 BaiduspiderIP。也有可能是您网站所在的空间服务商把百度 IP 进行了封禁,这时您需要联系服务商更

10、改设置。5,UA 封禁:UA 即为用户代理(User-Agent),服务器通过 UA 识别访问者的身份。当网站针对指定 UA 的访问,返回异常页面(如 403,500)或跳转到其他页面的情况,即为 UA 封禁。当您的网站不希望 Baiduspider 访问时,才需要该设置,如果您希望 Baiduspider 访问您的网站,useragent相关的设置中是否有 Baiduspider UA,并及时修改。6,死链:页面已经无效,无法对用户提供任何有价值信息的页面就是死链接,包括协议死链和内容死链两种形式:协议死链:页面的 TCP 协议状态/HTTP 协议状态明确表示的死链,常见的如 404、403

11、、503状态等。内容死链:服务器返回状态是正常的,但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。对于死链,建议站点使用协议死链,并通过百度站长平台-死链工具向搜索引擎提交,以便蜘蛛更快地发现死链,减少死链对用户以及搜索引擎造成的负面影响。7,异常跳转:将网络请求重新指向其他位置即为跳转。异常跳转指的是以下几种情况:1)当前该页面为无效页面(内容已删除、死链等),直接跳转到前一目录或者首页,百度建议站长将该无效页面的入口超链接删除掉2)跳转到出错或者无效页面注意:对于长时间跳转到其他域名的情况,如网站更换域名,建议使用 301 跳转协议进行设置。8,其他异常:1)针对 ref

12、er 的异常:网页针对来自的 refer 返回不同于正常内容的行为。2)针对 ua 的异常:网页对百度 UA 返回不同于页面原内容的行为。3)JS 跳转异常:网页加载了搜索引擎无法识别的 JS 跳转代码,使得用户通过搜索结果进入页面后发生了跳转的情况。4)压力过大引起的偶然封禁:搜索引擎会根据站点的规模、访问量等信息,自动设定一个合理的抓取压力。但是在异常情况下,如压力控制失常时,服务器会根据自身负荷进行保护性的偶然封禁。这种情况下,请在返回码中返回 503(其含义是“Service Unavailable”),这样Baiduspider 会过段时间再来尝试抓取这个链接,如果网站已空闲,则会被成功抓取。我是 SEO 从业者,我经常遇见很多 SEO 问题没有办法解决?我是传统企业,生意很难做,眼看着互联网风生水起,想借助互联网趋势,却不知如何下手?我想为企业聘请一些懂网络营销的人才,却不知道去哪儿找?我想学习网络营销知识,却不知去哪里学?这些,只要你加入蒋鑫自媒体,都能得到解决。前 100 名享受终身制,100 名后为 1 年制。360 一年(现已经有 13 人加入,您还在犹豫什么?)加微信号:(jxzmt87)了解详情

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号