-web爬虫专题研究

上传人:woxinch****an2018 文档编号:39301677 上传时间:2018-05-14 格式:DOC 页数:9 大小:130.50KB
返回 下载 相关 举报
-web爬虫专题研究_第1页
第1页 / 共9页
-web爬虫专题研究_第2页
第2页 / 共9页
-web爬虫专题研究_第3页
第3页 / 共9页
-web爬虫专题研究_第4页
第4页 / 共9页
-web爬虫专题研究_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《-web爬虫专题研究》由会员分享,可在线阅读,更多相关《-web爬虫专题研究(9页珍藏版)》请在金锄头文库上搜索。

1、目目 录录 (Content)(Content)一、绪论.2 1.1 引言 .2 1.2 背景 .2 1.3 定义 .3 二、聚焦爬虫工作原理及关键技术.3 2.1 聚焦爬虫相关概念 .3 2.2 聚焦爬虫的研究内容 .3 2.3 网络爬虫工作原理 .4 2.3.1 抓取目标 .4 2.3.2 抓取目标描述 .4 三、网页搜索策略.5 3.1 广度优先搜索策略 .5 3.2 最佳优先搜索策略 .5 四、网页分析算法.5 4.1 基于网络拓扑的分析算法 .5 4.1.1 网页(Webpage)粒度的分析算法 .5 4.1.2 网站粒度的分析算法 .6 4.1.3 网页块粒度的分析算法 .6 4.

2、2 基于网页内容的网页分析算法 .6 4.2.1 基于文本的网页分析算法 .6 4.2.2 Hidden Web 的网页分析方法 .6 4.2.3 数据密集型网页的分析方法 .7 4.3 用户协作网页分析算法 .7 4.4 基于领域概念定制的网页评价算法 .7 五、 聚焦爬虫系统体系结构.8 5.1 基于分类器的聚焦爬虫 .8 5.2 基于数据抽取器的聚焦爬虫 .8 5.3 基于用户学习的聚焦爬虫。 .8 六、 总结.8 结论.9 参考文献.9一、绪论一、绪论1.1 引引言言随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎 (Search

3、Engine),例如传统的通用搜索引擎 AltaVista,Yahoo 和 Google 等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如: (1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。 (2) 通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。 (3) 万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频/视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能

4、为力,不能很好地发现和获取。 (4) 通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。以上 4 个局限性已经将 目前通用的搜索引擎 的“信息涉及领域太广 ”,“返回冗余信息多 ”,“结果不够准确 ”等一系列的问题都反映出来;结果将是 导致在某些特定领域的查询上则不够深入和专业化。为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫 (generalpurpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定

5、主题内容相关的网页,为面向主题的用户查询准备数据资源。1.2 背背景景近年来,随着互联网的快速发展,网络信息呈指数级的增长,这种信息量的飞速增长对通用网络爬虫和搜索引擎呈现了空前的挑战,越来越多的人希望能够快速且有效地找到自己所需要的信息。聚焦爬虫是一种面向主题的信息搜集系统,可以根据用户需要从互联网上自动搜集到主题相关信息,在主题搜索引擎、站点结构分析等方面取得越来越广泛的应用。 传统的聚焦爬虫抓取的目标是与某一特定主题内容相关的网页,而在有些应用中,如网络目录,更多的是给用户提供主题相关网站。随着互联网信息的日益增多,目前靠人工来维护的网络目录越来越显得低效和不可行。为了实现具有自动维护功能的网络目录,将抓取目标锁定为主题网站的网站聚焦爬虫应运而生。 网站聚焦爬虫是在现有聚焦爬虫的基础上加入网站选取和分类机制,从用户提供的种子网站开始,以Best-first 原则获取最佳候选网站并开始新一轮的爬行分类。1.3 定定义义网络爬虫源自 Spider (或 Crawler、robots、wanderer)等的意译。网络爬虫的定义有广义和狭义之分1,狭义的定义为:利用标准的 http 协议,根据超级链接和 W

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号