基于Python的分布式爬虫系统的设计与实现

上传人:碎****木 文档编号:220863390 上传时间:2021-12-09 格式:DOCX 页数:2 大小:12.51KB
返回 下载 相关 举报
基于Python的分布式爬虫系统的设计与实现_第1页
第1页 / 共2页
基于Python的分布式爬虫系统的设计与实现_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于Python的分布式爬虫系统的设计与实现》由会员分享,可在线阅读,更多相关《基于Python的分布式爬虫系统的设计与实现(2页珍藏版)》请在金锄头文库上搜索。

1、基于 Python 的分布式爬虫系统的设计与实现摘要:随着互联网飞速进展,网络数据将呈指数级爆炸式增长现状,通过分布式网络爬虫对数据处理的速度与规模等优势,以提高高效、快速、稳定的网页数据提取;实现一个主从式分布式网络爬虫系统,对海量大数据的准时抓取,以达到快速、稳定、可拓展的爬取海量的 Web 资讯信息,真正地实现“快速”、“高效”。为了让用户更加便利的搜寻相关公司或学校的信息,本文将推出一款域内搜寻引 擎,输入指定域名,将爬取该域名下的全部子域名,并将爬取的数据过滤之后存 入数据库并在微信小程序中显示。而本系统将围绕 Python+Redis+Nginx+Scrapy 来 实现分布式爬虫系

2、统的实现。关键词:网络爬虫;主从式分布式;微信小程序1. 引言随着大数据时代的到来及快速的进展,网络数据体量不断扩大。IDC 最新推测,到 2025 年,全球数据集合的规模将扩展至163ZB,相当于 2021 年所产生的数据量的近十倍 1。高 效快速的网络数据采集是挖掘数据海洋的关键,是使数据发挥价值的首要环节。网络爬虫因 快速实现互联网数据的采集及构造化存储 2,已成为目前最为主流的数据采集手段,其技术也得以快速进展。随着时代的进展,全国高等训练的重视以及普及,越来越多的学子们走入 高校之门,高校的相关数据也随之指数级的增长,本文主要从高校的数据入手,争辩并设计 实现一款主从式分布式爬虫系统

3、,依据区域设置来实现相关的搜寻,应用于高校区域内的搜 索。本文系统承受 CS 架构设计,鉴于现在微信的流程,本系统承受微信小程序作为界面应用层,用来便利显示输出相关信息。网络爬虫应用智能自构造技术,首先输入指定域名,系统将会爬取该域名下的全部子域名,并且可以自动分析构造 URL,将分析构造后的 URL 其存入 SET 函数中,自动对 URL 进展去重处理。通过争辩互联网爬虫的原理并实现爬虫的相关功能,并将爬去取后的数据清洗之后再存入数据库中,后期通过微信小程序显示。2. 爬虫系统的设计与实现本文系统主要是实现一个便利用户搜寻相关公司或高校的信相关信息,属于区域内小范围的搜寻实现。本系统能够实现

4、用户依据自身需要,设置输入域,并进展查找相关的信息。首先输入要爬取的公司或学校域名,该系统就会爬取该域名下的全部子域名的信息,并将爬取的相关信息存放到数据库中。由于是小范围的爬虫,承受主从式爬取,从节点只设置了一个,能进展正常的爬取相关信息即可。2.1 数据库的设计本系统设计主要承受了三种数据库分别为Mysql、Mongodb 和 Redis,关系型数据存放在 Mysql 数据库中,而爬虫猎取的数据存放在Mongodb 数据库中,Mongodb 数据库的查询速度比关系型数据库要快很多,优点明显。Redis 数据库主要用来存储的非关系型数据库,查询速度远高 Mysql 和 Mongodb 数据库

5、,所以本系统中将 Redis 用来存放缓存数据,提高数据提取的速度。针对爬虫系统和用户操作,分别对具体的行为进展了具体的调研和分析,总结出如下的需求信息:Redis 存储用户缓存信息和 URL 去重,MongoDB 存放爬虫后的数据,设置在从节点客户端,用于用户搜寻,Mysql 存放用户信息和用户操作。具体的几张数据表设置如下:1用户表、脚印表、记录表这三张表均位于Mysql 数据库中;2文章表位于 MongoDB数据库中;3文章表非构造化数据位于 Redis 数据库中,如以下图 1 所示。图 3 客户端治理主界面图 4 数据统计分析主界面3. 总结本文主要对基于 Python 的分布式爬虫系统的分析设计及实现,主要包括三大局部:微信小程序局部、web api 局部及爬虫局部。通过对本系统的分析与设计,根本完成区域内爬虫及对爬取的数据进展分析处理及存储,并且最终用微信小程序的的方式显示给 终端用户,到达预期的效果。参考文献:1 Reinsel D,Gantz J,Rydning J. An International Data CorporationIDCWhite Paper, 2021.2 Mitchell R. Web Scraping with Python M. 北京:人民邮电出版社,2021. 3Python 框架在 WEB 开发中的运用J. 傅瑶. 202108

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号