Python网络爬虫基础教程 第7章 存储数据

上传人:知** 文档编号:304941561 上传时间:2022-06-06 格式:PPT 页数:82 大小:4.71MB
返回 下载 相关 举报
Python网络爬虫基础教程 第7章 存储数据_第1页
第1页 / 共82页
Python网络爬虫基础教程 第7章 存储数据_第2页
第2页 / 共82页
Python网络爬虫基础教程 第7章 存储数据_第3页
第3页 / 共82页
Python网络爬虫基础教程 第7章 存储数据_第4页
第4页 / 共82页
Python网络爬虫基础教程 第7章 存储数据_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《Python网络爬虫基础教程 第7章 存储数据》由会员分享,可在线阅读,更多相关《Python网络爬虫基础教程 第7章 存储数据(82页珍藏版)》请在金锄头文库上搜索。

1、第7章 存储数据Python网络爬虫基础教程学习目标/Target了解数据存储的两种方式,能够说出文件存储和数据库存储的利弊掌握MongoDB数据库的安装,能够独立安装MongoDB数据库掌握Python操作MongoDB数据库的方式,能够使用pymongo模块操作MongoDB数据库的数据学习目标/Target掌握Redis数据库的安装,能够独立安装Redis数据库掌握Python操作Redis的方式,能够使用redis模块操作Redis数据库的数据章节概述/ Summary在实际应用中,网络爬虫在对网页的数据进行抓取、解析之后,便可以获得最终要采集的目标数据,然后将这些目录数据进行持久化存

2、储,以便后期投入到数据研究工作中。数据存储主要有文件存储和数据库存储两种存储方式,前面在开发章节项目时已经接触过文件存储了。目录/Contents7.17.27.3数据存储的方式存储至MongoDB数据库存储至Redis数据库7.4实践项目:采集小兔仙儿网的商品信息数数据存据存储方式方式7.1l了解数据存储的两种方式,能够说出文件存储和数据库存储的利弊学学习目目标7.1 数数据存据存储的方式的方式存储数据是实现网络爬虫的最后一个环节,我们在这个环节主要做的事情便是将解析后的数据进行持久化存储,为后期的数据研究工作做好准备、我们可以采用两种方式存储网络爬虫采集的数据:文件存储和数据库存储。7.1

3、 数数据存据存储的方式的方式 文件存储文件存储是一种基础的数据存储方式,这种方式会将数据以文件的形式存储到本地电脑中,例如,前面章节中涉及的案例都是采用这种方式存储数据的。对于中小型网络爬虫来说,适合使用文件的形式存储数据。7.1 数数据存据存储的方式的方式 数据库存储文件存储方式虽然能够将采集的数据进行存储,但这种方式会将数据存储成一堆零散的文件,这样导致数据不仅清晰的结构,而且也不利于后续在程序中使用,当采集的数据量较大时,可以使用数据库存储。7.1 数数据存据存储的方式的方式 数据库存储根据存储数据时所用数据模型的不同,当今互联网中的数据库主要分为两种:关系型数据库和非关系型数据库。l关

4、系型数据库是指采用关系模型(二维表格形式)组织数据的数据库系统,它由数据表和数据表之间的关系组成,主要包含数据行、数据列、数据表、数据库4个核心元素。l非关系型数据库也被称为NoSQL(Not Only SQL)数据库,是指非关系型的、分布式的数据存储系统。与关系型数据库相比,非关系型数据库无需事先为要存储的数据建立字段,它没有固定的结构,既可以拥有不同的字段,也可以存储各种格式的数据。7.1 数数据存据存储的方式的方式 数据库存储7.1 数数据存据存储的方式的方式在实际应用中,文件存储和数据库存储各有利弊,文件存储比较适合中小型网络爬虫,数据库存储比较适合大型网络爬虫,大家可以根据自己的需求

5、进行选择。存存储至至MongoDB数据数据库7.2l掌握MongoDB数据库的安装,能够独立安装MongoDB数据库学学习目目标7.2 存存储至至MongoDB数据数据库 7.2.1 下下载与安装与安装MongoDBMongoDB属于典型的文档型数据库,它采用文档的形式存储数据,每个文档中包含多个键值对。这类数据库对数据结构要求并不严格,具有结构可变、查询速度快的特点。在使用MongoDB数据库之前,我们需要确保自己的计算机中已经安装了MongoDB数据库。接下来,以Windows 7系统为例,分别为大家介绍如何在计算机中下载并安装MongoDB数据库。7.2.1 下下载与安装与安装Mongo

6、DB在浏览器中访问MongoDB社区版的下载页面,该页面中展示支持Windows系统的所有可用版本。单击version选择下载的版本;单击Download下载安装包多线程7.2.1 下下载与安装与安装MongoDB步骤1步骤2步骤3步骤4安装MongoDB双击下载的MongoDB安装包启动安装程序,进入Welcome to the MongoDB界面。7.2.1 下下载与安装与安装MongoDB步骤2步骤1步骤3步骤4勾选协议单击Welcome to the MongoDB 4.2.15界面中Next按钮,进入End-User License Agreement界面。7.2.1 下下载与安装与

7、安装MongoDB步骤3步骤1步骤2步骤4进入Choose Setup Type界面勾选End-User License Agreement界面中的协议后,单击Next按钮进入Choose Setup Type界面。Complete:此类型将安装所有程序功能,需占用较多的磁盘空间,建议大多数用户使用。 Custom:此类型允许用户自行选择要安装的程序功能及安装位置,建议高级用户使用。7.2.1 下下载与安装与安装MongoDB步骤4步骤1步骤2步骤3进入Service Configuration界面在Choose Setup Type界面中,单击Complete按钮进入Service Conf

8、iguration界面。ldata文件夹用于存放创建的数据库llog文件夹用于存放数据库的日志文件多线程7.2.1 下下载与安装与安装MongoDB步骤5步骤6步骤7步骤8进入Install MongoDB Compass界面单击Service Configuration界面中Next按钮,进入Install MongoDB Compass界面。7.2.1 下下载与安装与安装MongoDB步骤6步骤5步骤7步骤8进入Ready to install MongoDB界面取消勾选Install MongoDB Compass复选框,单击Next按钮进入Ready to install MongoD

9、B 4.2.15 2008R2Plus SSL(64 bit)界面。7.2.1 下下载与安装与安装MongoDB步骤7步骤5步骤6步骤8进入Completed the MongoDB 4.2.15界面单击Ready to install MongoDB 4.2.15 2008R2Plus SSL(64 bit)界面的Install按钮开始安装MongoDB。7.2.1 下下载与安装与安装MongoDB步骤8步骤5步骤6步骤7完成安装MongoDB默认会将创建的数据库文件存储在db目录下,但是这个目录不会被主动创建,需要用户在MongoDB安装完成后自己创建db文件夹。在“C:Program F

10、ilesMongoDBServer4.0data”目录下创建一个文件夹db。7.2.1 下下载与安装与安装MongoDB步骤8步骤5步骤6步骤7完成安装打开命令提示符窗口,使用cd命令切换当前工作路径为MongoDB.exe所在的安装目录(本书安装的路径为“C:Program FilesMongoDBServer4.2bin”),之后输入如下命令指定MongoDB数据库文件的位置为刚刚新建的db目录。mongod -dbpath C:Program FilesMongoDBServer4.2datadb为了避免后续重复切换至MongoDB.exe的安装目录,可以将以上路径添加到环境变量中。l掌

11、握Python操作MongoDB的方式,能够使用pymongo模块操作MongoDB数据库的数据学学习目目标7.2.2 使用使用Python操作操作MongoDBPython提供了一个第三方模块pymongo,该模块中定义了连接和操作MongoDB数据库的功能。使用pymongo模块之前,我们需要在当前的Python环境中安装pymongo模块。pip install pymongo安装好pymongo模块以后,我们就可以使用pymongo模块操作MongoDB数据库。7.2.2 使用使用Python操作操作MongoDB 创建连接pymongo模块中,MongoClient类的对象用于建立与

12、MongoDB数据库的连接,它可以通过如下构造方法进行创建。_init_(self, host=None, port=None, document_class=dict, tz_aware=None, connect=None, type_registry=None, *kwargs)lhost:表示主机地址,默认为localhost。lport:表示连接的端口号,默认为27017。 ldocument_class:表示数据库执行查询操作后返回文档的类型,默认为dict。7.2.2 使用使用Python操作操作MongoDB 创建连接使用默认的主机地址和端口号建立与本地MongoDB数据库的连

13、接,代码如下。client = MongoClient()显式地指定主机地址和端口号,示例代码如下。client = MongoClient(localhost, 27017)使用MongoDB的URL路径形式传入参数,示例代码如下。client = MongoClient(mongodb:/localhost:27017)7.2.2 使用使用Python操作操作MongoDB 访问数据库在pymongo模块中,DataBase对象表示一个数据库。访问数据库的方式比较简单,可以直接使用“连接对象.数据库名称”的方式访问数据库。db = client.database_test # 访问数据库d

14、atabase_test此外,还可以使用字典的形式进行访问,示例代码如下。db = clientdatabase_test值得一提的是,使用以上两种方式访问数据库时,若指定的数据库已经存在,则会直接访问该数据库,否则会重新创建一个数据库。7.2.2 使用使用Python操作操作MongoDB 创建集合在pymongo模块中,Collection对象代表集合,集合类似于关系数据库中的表,但是它没有固定的结构。创建集合与访问数据库的方式类似,直接通过“数据库名称.集合名称”的形式实现。coll = db.student # 创建集合student也可以采用访问字典值的形式创建集合,示例代码如下。c

15、oll = dbstudent7.2.2 使用使用Python操作操作MongoDB 插入文档pymongo中提供了两个向集合中插入文档的方法,分别是insert_one()和insert_many()。result = coll.insert_one(name:zhaoliu, age:23)insert_many()用于一次向集合中插入多条文档,代码如下。result = coll.insert_many(name: zhangsan, age: 20, name: lisi, age: 21, name: wangwu, age: 22)insert_one()用于一次向集合中插入一条文

16、档,代码如下。7.2.2 使用使用Python操作操作MongoDB 查询文档pymongo中提供了两个查询文档的方法,分别是find_one()和find()方法。result = coll.find(age: 20)可以使用for循环遍历查找的结果。for doc in result: print(doc)find_one()方法用于查询集合中的一条文档,若找到匹配的文档,返回单个文档,代码如下。7.2.2 使用使用Python操作操作MongoDB 更新文档pymongo中提供了两个更新文档的方法,分别是update_one()和update_many(),其中update_one()方法用于更新集合中的一条文档,update_many()方法用于更新集合中的多条文档。coll.update_one(name: zhaoliu, $set: age: 25)result_update = coll.find(name: zhaoliu)for doc in result_update: print(doc)使用update_one()方法更新集合中的一条文档,代码如下。7.2.2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号