网络爬虫采集策略

上传人:野鹰 文档编号:2664382 上传时间:2017-07-26 格式:PDF 页数:3 大小:141.65KB
返回 下载 相关 举报
网络爬虫采集策略_第1页
第1页 / 共3页
网络爬虫采集策略_第2页
第2页 / 共3页
网络爬虫采集策略_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《网络爬虫采集策略》由会员分享,可在线阅读,更多相关《网络爬虫采集策略(3页珍藏版)》请在金锄头文库上搜索。

1、数荟集 -专业数据提供商 网络爬虫采集策略 数荟集( 数据提供商 ) CTO 2016年 6月 根据网络爬虫访问网页的先后顺序以及实际使用的需要,通用网络爬虫有以下常用遍历策略: 1.深度优先遍历策略 深度优先遍历策略是指网络爬虫会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。 2.宽度优先遍历策略 宽度优先遍历策略的基本思路是,将新下载网页中发现的链接直接插入待抓取 URL队列的末尾。也就是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。 数荟集 -专业数据提供商 3.非完全 PageR

2、ank策略( PartialPageRank) PartialPageRank算法借鉴了 PageRank算法的思想:对于已经下载的网页,连同待抓取 URL队列中的 URL,形成网页集合,在此集合内计算每个页面的 PageRank值,计算完之后,将待抓取 URL队列中的网页按照 PageRank值的大小排列,并按照该顺序抓取页面。 如果每次抓取一个页面,就重新计算 PageRank值,一种折中方案是:每抓取 K个页面后,重新计算一次 PageRank值。但是这种情况还会有一个问题:对于已经下载下来的页面中分析出的链接,也就是我们之前提到的 未知网页那一部分,暂时是没有 PageRank值的。为

3、了解决这个问题,会给这些页面一个临时的 PageRank值:将这个网页所有入链传递进来的 PageRank值进行汇总,这样就形成了该未知页面的 PageRank值,从而参与排序。 4.OPIC策略( OnlinePage Importance Computation) 该算法实际上也是对页面进行一个重要性打分。在算法开始前,给所有页面一个相同的初始现金( cash)。当下载了某个页面 P之后,将 P的现金分摊给所有从 P中分析出的链接,并且将 P的现金清空。对于待抓取 URL队列中的所有页面,则按照拥有的现金数进行排序,优先下载“现金”最充裕的网页。 5.大站优先策略 数荟集 -专业数据提供商 以网站为单位衡量网页的重要性,对于待抓取 URL队列中的所有网页,根据所属的网站进行分类。如果哪个网站待下载页的页面数最多,则优先下载这些链接。其本质是倾向于优先下载大型网站。 数荟集( 数据提供商 ) CTO 2016年 6月

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号