网络爬虫毕业设计

上传人:wt****50 文档编号:37147754 上传时间:2018-04-07 格式:DOC 页数:69 大小:1.21MB
返回 下载 相关 举报
网络爬虫毕业设计_第1页
第1页 / 共69页
网络爬虫毕业设计_第2页
第2页 / 共69页
网络爬虫毕业设计_第3页
第3页 / 共69页
网络爬虫毕业设计_第4页
第4页 / 共69页
网络爬虫毕业设计_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《网络爬虫毕业设计》由会员分享,可在线阅读,更多相关《网络爬虫毕业设计(69页珍藏版)》请在金锄头文库上搜索。

1、沈阳理工大学学士学位论文I摘要目前即使通讯软件在平时的生活中有着十分广泛的应用,但是对绝大部分的软件来说,都必须应用在互联网上,必须在一个 INTERNET 环境下才能使用。有时候单位内部的员工,同学,在没有互联网环境下或因其他原因希望不用 INTERNET 就可以进行信息交互,这样开发局域网通信就有了必要性。本文提出了局域网信息交互的需求,并详细对网络协议 TCP/IP 协议族进行了介绍和研究,如 TCP,UDP,广播等相关技术。并对网络信息交互原理惊醒了说明,在此基础上利用 SOCKET 网络编程实现了一种基于 WINDOWS 平台的局域网信息交互功能。网络爬虫是一种自动搜集互联网信息的程

2、序。通过网络爬虫不仅能够为搜索引擎采集网络信息,而且可以作为定向信息采集器,定向采集某些网站下的特定信息,如招聘信息,租房信息等。本文通过 JAVA 实现了一个基于广度优先算法的多线程爬虫程序。为何要使用多线程,以及如何实现多线程;系统实现过程中的数据存储;网页信息解析等。通过实现这一爬虫程序,可以搜集某一站点的 URLs,并将搜集到的 URLs 存入数据库。将解析的网页存入 XML 文档。【关键词】 网络爬虫; SOCKET 编程;TCP/IP;网络编程 ;JAVA沈阳理工大学学士学位论文IIAbstractInstant message software in our daily live

3、s has a very wide range of application , However ,most of the software must be used in the Internet , and it must be used in a Internet environment .Sometimes Internal staff, students ,may not have the Internet environment or other reasons do not wish to be able to communicate on the Internet .This

4、development will have a need for LAN communication program .Therefore ,this paper presents the needs of local area network exchange information Software ,And details of the network protocol TCP/IP protocol suite are introduced and research such as TCP, UDP, broadcast ,and other technologies . and ne

5、twork information exchange theory is discussed . Base on this condition I use of Socket Network programming based on Windows platform to develop a LAN chat application . SPIDER is a program which can auto collect informations from internet. SPIDER can collect data for search engines, also can be a D

6、irectional information collector, collects specifically informations from some web sites, such as HR informations, house rent informations.In this paper, use JAVA implements a breadth-first algorithm multi-thread SPDIER. This paper expatiates some major problems of SPIDER: why to use multi-threading

7、, and how to implement multi-thread; data structure; HTML code parse. etc. This SPIDER can collect URLs from one web site, and store URLs into database.【KEY WORD】SPIDER; JAVA;;Socket programming; TCP/IP ;Network programming沈阳理工大学学士学位论文III目录1 绪论.11.1 网络爬虫的发展.1 1.2 国内外技术发展现状.2 1.3 系统设计的意义.32 总体设计方案.42

8、.1 系统设计方案.4 2.2 系统设计框图.4 2.3 网络爬虫的相关技术.5 2.3.1 URL.5 2.3.2 HTTP 协议.6 2.3.3 JAVA 多线程.9 2.3.4 JAVA 网络编程.163 系统软件设计.213.1 系统软件概述.21 3.2 ECLIPSE软件介绍 .21 3.3 服务器端设计.22 3.3.1 网本页解析部分.22 3.3.2 获取新的网络代理部分.36 3.4.1 登录部分.37 3.4.2 Table 模块.37 3.4.2 上传档及查询部分.39 3.5 SOCKET通信部分.39 3.5.1 什么是 Socket.39 3.5.2 服务端部分.44 3.5.3 客户端部分.464 系统运行.484.1 服务器端界面.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号