网络爬虫方案及实现.doc

资源描述

《网络爬虫方案及实现.doc》由会员分享，可在线阅读，更多相关《网络爬虫方案及实现.doc（29页珍藏版）》请在金锄头文库上搜索。

1、网络爬虫方案及实现网络爬虫的设计与实现I摘要网络爬虫将下载的网页和采集到的网页信息储存在当地数据库中以供搜寻引擎使用，它是一个特意从万维网上下载网页并剖析网页的程序。跟着网络的迅速发展，人们对搜寻引擎的要求也愈来愈高，而网络爬虫的效率真接影响着搜寻引擎的质量。本课题研究的是通用网络爬虫，它是从一个或若干个初始网页的链接开始从而获得一个链接行列。陪伴着网页的抓取又不断从抓取到的网页中抽取新链接放入到链接行列中，直到爬虫系统知足了停止条件。该课题主要波及到了缓冲池技术，多线程技术，套接字技术，HTTP和SSL协议，正则表达式，Linux网络编程技术，PHP+Apache的使用等有关技术。本说明书表

2、达的网络爬虫是以LinuxC实现的，加以PHP语言编写的界面使用户更为方面的操作，利用Shell脚本和Apache服务器使得爬虫系统和界面很好的联合在一同。重点词：网络爬虫缓冲池正则表达式SSL协议多线程II目次1前言.11.1课题选题背景.11.2课题研究的意义.22需求剖析.32.1功能需求剖析.32.2系统性能剖析.43系统设计.53.1系统工作流程图.53.2数据结构设计.63.3系统各功能流程图.74系统实现.104.1有关技术剖析.104.2系统功能模块的实现.115测试与结果.17结论.23致谢.错误！不决义书签。参考文献.24III1 前言跟着网络技术日异月新的发展，互联网俨然

3、已成为信息的最大载体。为了能够在浩大的信息大海中精准地查问用户所需要的信息，搜寻引擎技术应运而生。当前比较流行的搜寻引擎是Google和百度，他们拥有着宏大的用户数目。作为搜寻引擎的重要构成部分，网络爬虫的设计直接影响着搜寻引擎的质量。网络爬虫是一个特意从万维网上下载网页并剖析网页的程序。它将下载的网页和采集到的网页信息储存在当地数据库中以供搜寻引擎使用。网络爬虫的工作原理是从一个或若干初始网页的链接开始从而获得一个链接行列。陪伴着网页的抓取又不断从抓取到的网页里抽取新的链接放入到链接行列中，直到爬虫程序知足系统的某一条件时停止。本说明书对课题背景进行简单介绍的同时，又对研究网络爬虫的意义进行

4、了叙述，在此基础上，详尽的介绍来了利用C语言在linux系统上开发出多线程网络爬虫的设计步骤。1.1课题选题背景搜寻引擎是用户在网上冲浪时常常使用的一种工具，毫无疑问，每个用户都可以经过搜寻引擎获得自己所需要的网络资源。搜寻引擎一词在互联网领域获得宽泛的应用，可是每个地域对它又有着不一样的理解。在一些欧美国家搜寻引擎常常是基于因特网的，它们经过网络爬虫程序采集网页，而且索引网页的每个词语，也就是全文检索。而在一些亚洲国家，搜寻引擎往常是鉴于网站目录的搜寻服务。总的来说：搜寻引擎不过一种检索信息的工具。它的检索方式分为以下两种：一种是目录型的方式，爬虫程序把网络的资源采集在一同，再依据资源种类的

5、不一样而分红不一样的目录，而后连续一层层地进行分类，人们查问信息时就是按分类一层层进入的，最后获得自己所需求的信息。另一种是用户常常使用的重点字方式，搜寻引擎依据用户输入的重点词检索用户所需资源的地点，而后把这些地点反应给用户。11.2课题研究的意义网络在我们的生活中愈来愈重要，网络的信息量也愈来愈大，研究该课题能够更好的理解网络爬虫在搜寻引擎中的作用以及网络爬虫的原理。现实中，一般的服务器大多是linux系统该课题更好的配合了linux系统上运转爬虫程序，加上界面更简单操作。21世纪是一个讲究信息安全的时代，于是网站上出现了愈来愈多的https(超文本传输安全协议)协议的链接,该课题很好的利

6、用了SSL协议解决了下载https协议链接的问题。设备的内存是宝贵的，怎样更为合理有效地利用内存提升内存的利用率是值得研究的，该课题为认识决内存的利用使用了内存池来提升内存的使用率。22 需求剖析网络爬虫是一个特意从万维网上下载网页并剖析网页的程序。它将下载的网页和采集到的信息储存在当地数据库中以供搜寻引擎使用。网络爬虫的工作原理是从一个或若干初始网页的链接开始从而获得一个链接行列。陪伴着网页的抓取又不断从抓取到的网页里抽取新的链接放入到链接行列中，直到爬虫程序知足系统的某一条件时停止。它是搜寻引擎的重要构成部分。2.1功能需求剖析(1) 网页下载功能能够下载任何http协讲和https协议

7、的链接的网页。结构HTTP恳求中的GET恳求。剖析HTTP响应恳求。(2) 网页剖析功能提取网页标题。提取网页重点字。提取网页纲要。提取网页链接并统计数目。把新链接加入到URL行列。(3) 内存池功能能够分派固定大小的内存。能够回收内存对象。能够开释内存对象。能够销毁内存池。能够分派固定大小的内存。(4) 保留功能能够正保证存网页以及网页信息到文件。3功能把系统运转中的异样写入日记文件。(5) 界面能够配置参数和运转后台的爬虫系统。能够查察运转结果。2.2系统性能剖析当用户使用系统时，系统需要能够对于一些异样状况系统能够记录并跳过此异样连续履行。系统需要拥有较高的可移植性和靠谱性。系统需要拥有很好的可

展开阅读全文

网络爬虫方案及实现.doc

最新文档