毕业论文（设计）：基于主题的Web信息采集技术研究

资源描述

《毕业论文（设计）：基于主题的Web信息采集技术研究》由会员分享，可在线阅读，更多相关《毕业论文（设计）：基于主题的Web信息采集技术研究（55页珍藏版）》请在金锄头文库上搜索。

1、基于主题的基于主题的 Web 信息采集技术研究信息采集技术研究目录第一章引言.11.1 背景. 11.2 本文安排. 2第二章 Web 信息采集概述42.1 Web 信息采集系统的基本原理. 42.2 Web 信息采集系统的基本结构. 42.3 Web 信息采集面临的主要困难和相应的技术手段: 62.4 采集系统实例. 8第三章 Web 信息采集的研究现状. .113.1 基于整个 Web 的信息采集. 113.2 增量式 Web 信息采集: 123.3 基于主题的 Web 信息采集: 123.4 基于用户个性化的 Web 信息采集. 133.5 基于 Agent 的信息采集. 143.6

2、迁移的信息采集. 153.7 基于元搜索的信息采集: 153.8 小结. 15第四章基于主题的 Web 信息采集基本问题研究 .174.1 基于主题的 Web 信息采集的定义. 174.2 基于主题的 Web 信息采集的优点. 174.3 基于主题的 Web 信息采集的分类. 184.4 主题页面在 Web 上的分布特征. 194.5 相关性判别算法研究. 21第五章基于主题的 Web 信息采集系统模型及我们的对策 .375.1 系统模型. 375.2 模型中的关键问题及我们的策略. 37第六章主题选择.416.1 主题的定义. 416.2 主题分类目录. 416.3 Web 上的主题

3、分类目录的特点. 426.4 主题选择策略. 42第七章 Spider 采集447.1 Spider 的系统模型. 447.2 采集算法及实现. 45第八章页面分析.498.1 HTML 语法分析. 498.2 页面中正文的提取. 498.3 页面中链接的提取. 508.4 页面中标题的提取. 51第九章 URL、页面与主题的相关性判定.5291 URL 与主题的相关性判定IPageRank 算法. 539.2 页面与主题的相关性判定向量空间模型算法. 56第十章系统的实现与总结.5810.1 系统实现情况. 5810.2 系统测试结果. 58103 进一步的工作. 6210.4 结论.

4、62参考文献 .64致谢 .68作者简介69第一章引言1.1 背景背景随着 Internet/Intranet 的迅速发展，网络正深刻地改变着我们的生活。而在网上发展最为迅猛的 WWW（World Wide Web）技术，以其直观、方便的使用方式和丰富的表达能力，已逐渐成为 Internet 上最重要的信息发布和传输方式。随着信息时代的到来和发展，Web 上的信息如雨后春笋般迅速增长起来。截止到 2000 年 7 月，Internet 上的网页数量就已经超过 21 亿，上网用户超过 3 亿，而且网页还在以每天 700 万的速度增加徐泽平 2001。这给人们的生活提供了丰富的资源。然而，We

5、b 信息的急速膨胀，在给人们提供丰富信息的同时，又使人们在对它们的有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩，而另一方面用户却找不到他们所需要的信息。因而基于 WWW 的网上信息的采集、发布和相关的信息处理日益成为人们关注的焦点。为此，人们发展了以 Web 搜索引擎为主的检索服务。为了解决网上信息检索的难题，人们在信息检索领域进行了大量的研究，开发了各种搜索引擎(如 Google、Yahoo)。这些搜索引擎通常使用一个或多个采集器从 Internet 上收集各种数据(如 WWW、FTP、Email、News)，然后在本地服务器上为这些数据建立索引，当用户检索时根据用户提

6、交的检索条件从索引库中迅速查找到所需的信息Bowman 1994。作为这些搜索引擎的基础和组成部分，Web 信息采集正发挥着举足轻重的作用，并且随着应用的深化和技术的发展，它也越来越多的应用于站点结构分析、页面有效性分析、Web 图进化、内容安全检测、用户兴趣挖掘以及个性化信息获取等多种服务和研究中。简单说，Web 信息采集是指通过 Web 页面之间的链接关系，从 Web 上自动地获取页面信息,并且随着链接不断向所需要的 Web 页面扩展的过程。传统的 Web 信息采集的目标就是尽可能多地采集信息页面，甚至是整个 Web 上的资源，而在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这

7、样做的一个极大好处是能够集中精力在采集的速度和数量上，并且实现起来也相对简单，例如 Google 采集系统在并行 4个采集器时的速度可以达到每秒 100 页，从而它配合搜索引擎给网络用户带来了很大的便利。但是，这种传统的采集方法也存在着很多缺陷。随着 WWW 信息的爆炸性增长，信息采集的速度越来越不能满足实际应用的需要。最近的试验表明，即使大型的信息采集系统，它对 Web 的覆盖率也只有 30-40%。解决这一问题的直接办法是升级信息采集器的硬件，采用处理能力更强的计算机系统，然而这种方法的扩展性有限，性价比也不高。一个更好的解决方法是采用分布式方法来提高并行能力，但是并行不但增加了系统的开销

8、和设计的复杂性，并且并行换来的效益也随着并行采集器数目的增加而显著地减小。目前，一般的大型采集系统都采用了并行机制，但并行带来的改善效果仍远不能满足人们的需要。人们需要从其它角度改善目前的困境。比如说对整个 Web 分块采集，并将不同块的采集结果整合到一起，以提高整个 Web 的采集覆盖率。Internet 信息的分散存储、管理和动态变化也是困扰着信息采集的问题之一。由于信息源随时可能处于变化之中，信息采集器必须时常地刷新数据，但仍无法避免采集到的页面失效的情况。对于传统的信息采集来说，待刷新页面数量的巨大使得很多采集系统刷新一遍需要数周到一个月的时间Aggarwal et al. 2001B

9、rin&Page 1998，这使得页面的失效率非常地巨大。Selberg 和 Etzioni 在 1995 年的调查发现，通过 Internet 中最常用的一些搜索引擎查询到的结果 URL 中，14.9%的目标页面已经失效了Selberg&Etzioni 1995。一个显然的缓解办法就是减小采集页面的数量，从而减小刷新一遍的时间，进而减小页面已采集页面的失效率。传统的基于整个 Web 的信息采集需要采集的页面数量十分浩大，这需要消耗非常大的系统资源和网络资源，而对这些资源的消耗并没有换来采集到页面的较高利用率，事实上，它们中有相当大的一部分利用率很低。这是因为，用户往往只关心其中极少量的页面，

10、并且这些页面往往集中在一个主题或几个主题内，而采集器采集的大部分页面对于他们来说是没有用的。尽管许多用户合起来的效果提高了整个采集到页面的利用率，但仍然显得利用率偏低，这显然是对系统资源和网络资源的一个巨大浪费。为了有效的提高它们的利用效率，我们有必要另辟蹊径。对于用户的一般信息查询检索要求，传统信息采集器所组成的搜索引擎能够提供较好的服务，但对于用户更多的具体要求，这种传统的基于整个 Web 的信息采集所提供的服务就难以令人满意。对于每个用户来说，尽管他们输入同一个查询词，但他们渴望得到的查询结果却是不一样的，而传统的信息采集和搜索引擎却只能死板地返回相同的结果，这是不合理的，需要进一步提高

11、。这些问题主要都源于两点：采集页面的数量过于庞大和采集页面内容的过于杂乱。对整个 Web 页面进行分类，按类别采集，基于主题进行采集的思想应运而生。它有效的减少了采集页面的数量，增加了采集页面的规整程度，进而有效的缓解了上述问题。因此需要开展对基于主题的 Web 信息采集研究。 1.2 本文安排本文安排第二章概述了 Web 信息采集的基本结构、所面临的主要困难和相应的技术手段。在第三章里，讨论了 Web 信息采集的研究现状和热门的发展方向，并通过论述指出基于主题的 Web 信息采集的迫切性和必要性。在第四章里，我们讨论了基于主题的 Web 信息采集的基本问题，重点是对主题页面在 Web 上的分

12、布和相关性判定算法的研究。第五章给出了我们设计的基于主题的 Web 信息采集系统的结构模型，并就搭建一个这种采集系统所面临的关键问题和相应对策做了简单的描述。在接下来的四章中(从第六章到第九章)，我们按照结构模型中的主要部分主题选择、Spider 采集、页面分析、URL 和页面与主题的相关性判定分别作了较为详细的论述，并给出了我们的设计方案和算法。最后，在第十章里，我们给出了系统的实验结果和进一步需要研究的问题。第二章 Web 信息采集概述在研究基于主题的 Web 信息采集之前，让我们先来看看 Web 信息采集的基本情况，这包括Web 信息采集的基本原理、基本结构和主要难题。它们是从各类 We

13、b 信息采集系统中抽象出来的，因此代表了比较本质和共性的特征，而对于每个实际的采集系统来说，又与它们有所差别。为了更好的了解采采集系统，我们在本章的最后列举了两个实例。2.1 数据采集软件的基本原理数据采集软件的基本原理基与 web 数据采集软件，主要是指通过 Web 页面之间的链接关系，从 Web 上自动的获取页面信息,并且随着链接不断向所需要的 Web 页面扩展的过程。实现这一过程主要是由基与 Web数据采集软件来完成的。粗略的说，它主要是指这样一个程序，从一个初始的 URL 集出发，将这些 URL 全部放入到一个有序的待采集队列里。而采集软件从这个队列里按顺序取出 URL,通过 Web

14、上的协议，获取 URL 所指向的页面，然后从这些已获取的页面中提取出新的 URL,并将他们继续放入到待采集队列里，然后重复上面的过程，直到采集软件根据自己的策略停止采集。对于大多数采集软件来说，到此就算完结，而对于有些采集软件而言，它还要将采集到的页面数据和相关处里结果存储、索引并在此基础上对内容进行语义分析。2.2 数据采集软件的基本结构数据采集软件的基本结构如图 2.1 所示，数据采集软件基本上可以划分为七个部分:URL 处理器、协议处理器、重复内容检测器、URL 提取器、Meta 信息获取器、语义信息解析器和数据库，它们协调起来从 Web上获取信息。图中的箭头表示数据走向。2.2.1 U

15、RL 处理器处理器这个部件主要给待采集的 URL 排序，并根据一定的策略向协议处理器分配 URL。按照采集软件规模的不同，URL 可以是多个采集队列，也可以是一个 URL Server。比如，火车头采集系统采用了多个采集队列。URL 处理器主要有三个数据来源：1)初始的种子 URL 集，如图中的粗箭头所示；2)从 URL 提取器传输过来的 URL 集,它们是从已经采集到的页面中提取出来的；3)页面的 Meta、主题以及摘要等信息，来自 Meta 信息获取器，它们主要用来显示从 URL 提取器中传输过来的 URL 的重要性，为在这里排序提供依据。图 2.1 Web 信息采集系统基本结构2.2.2 协议处理器协议处理器这个部件处于系统的底层，

展开阅读全文

毕业论文（设计）：基于主题的Web信息采集技术研究

最新文档