网络爬虫的设计与实现 毕业论文正稿

上传人:xmg****18 文档编号:118983615 上传时间:2020-01-02 格式:DOC 页数:68 大小:644KB
返回 下载 相关 举报
网络爬虫的设计与实现 毕业论文正稿_第1页
第1页 / 共68页
网络爬虫的设计与实现 毕业论文正稿_第2页
第2页 / 共68页
网络爬虫的设计与实现 毕业论文正稿_第3页
第3页 / 共68页
网络爬虫的设计与实现 毕业论文正稿_第4页
第4页 / 共68页
网络爬虫的设计与实现 毕业论文正稿_第5页
第5页 / 共68页
点击查看更多>>
资源描述

《网络爬虫的设计与实现 毕业论文正稿》由会员分享,可在线阅读,更多相关《网络爬虫的设计与实现 毕业论文正稿(68页珍藏版)》请在金锄头文库上搜索。

1、 . . . . 专业资料可编辑 . 摘要 网络爬虫是一种自动搜集互联网信息的程序。通过网络爬虫不仅能够为搜 索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的 特定信息,如招聘信息,租房信息等。 本文通过 JAVA 实现了一个基于广度优先算法的多线程爬虫程序。本论文阐 述了网络爬虫实现中一些主要问题:为何使用广度优先的爬行策略,以及如何 实现广度优先爬行;为何要使用多线程,以及如何实现多线程;系统实现过程 中的数据存储;网页信息解析等。 通过实现这一爬虫程序,可以搜集某一站点的 URLs,并将搜集到的 URLs 存入数据库。 【关键字】网络爬虫;JAVA;广度优先;多线程。

2、 . . . . 专业资料可编辑 . ABSTRACT SPIDER is a program which can auto collect informations from internet. SPIDER can collect data for search engines, also can be a Directional information collector, collects specifically informations from some web sites, such as HR informations, house rent informations. In

3、 this paper, use JAVA implements a breadth-first algorithm multi- thread SPDIER. This paper expatiates some major problems of SPIDER: why to use breadth-first crawling strategy, and how to implement breadth-first crawling; why to use multi-threading, and how to implement multi-thread; data structure

4、; HTML code parse. etc. This SPIDER can collect URLs from one web site, and store URLs into database. 【KEY WORD】SPIDER; JAVA; Breadth First Search; multi-threads. . . . . 专业资料可编辑 . 目录 第一章 引言 .1 第二章 相关关技术术介绍绍.2 2.1 JAVA 线程.2 2.1.1 线程概述.2 2.1.2 JAVA 线程模型.2 2.1.3 创建线程.3 2.1.4 JAVA 中的线程的生命周期.4 2.1.5 JAV

5、A 线程的结束方式.4 2.1.6 多线程同步 .5 2.2 URL 消重.5 2.2.1 URL 消重的意义.5 2.2.2 网络爬虫 URL 去重储存库设计.5 2.2.3 LRU 算法实现 URL 消重.7 2.3 URL 类访问网络.8 2.4 爬行策略浅析.8 2.4.1 宽度或深度优先搜索策略.8 2.4.2 聚焦搜索策略.9 2.4.3 基于内容评价的搜索策略.9 2.4.4 基于链接结构评价的搜索策略.10 2.4.5 基于巩固学习的聚焦搜索 .11 . . . . 专业资料可编辑 . 2.4.6 基于语境图的聚焦搜索.11 第三章 系统统需求分析及模块设计块设计.13 3.1 系统需求分析.13 3.2 SPIDER 体系结构.13 3.3 各主要功能模块(类)设计.14 3.4 SPIDER 工作过程.14 第四章 系统统分析与与设计设计.16 4.1 SPIDER 构造分析.16 4.2 爬行策略分析.17 4.3 URL 抽取,解析和保存.18 4.3.1 URL 抽取.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号