高教社2024商务数据分析教学课件2-3静态网页爬虫

上传人:AZ****01 文档编号:488997069 上传时间:2024-05-13 格式:PPTX 页数:18 大小:4.03MB
返回 下载 相关 举报
高教社2024商务数据分析教学课件2-3静态网页爬虫_第1页
第1页 / 共18页
高教社2024商务数据分析教学课件2-3静态网页爬虫_第2页
第2页 / 共18页
高教社2024商务数据分析教学课件2-3静态网页爬虫_第3页
第3页 / 共18页
高教社2024商务数据分析教学课件2-3静态网页爬虫_第4页
第4页 / 共18页
高教社2024商务数据分析教学课件2-3静态网页爬虫_第5页
第5页 / 共18页
点击查看更多>>
资源描述

《高教社2024商务数据分析教学课件2-3静态网页爬虫》由会员分享,可在线阅读,更多相关《高教社2024商务数据分析教学课件2-3静态网页爬虫(18页珍藏版)》请在金锄头文库上搜索。

1、B u s i n e s s D a t a A n a l y s i s P r a c t i c e商 务 数 据分 析 实 务主讲人:朱景伟义乌工商职业技术学院01爬虫基本原理爬虫基本原理互联网网络爬虫网页爬虫爬到这就相当于访问了该页面,获取了其信息。把节点间的连线比作网页与网页之间的链接关系,蜘蛛通过一个节点后,可以顺着节点连线继续爬行到下一个节点。爬虫基本原理通过一个网页继续获取后续的网页,这样整个网的节点便可以被蜘蛛全部爬行到,网站的数据就可以被抓取下来了。爬虫基本原理爬虫获取网页并提取和保存信息的自动化程序。爬虫基本原理爬虫流程1.获取网页源代码代码里包含了网页的部分有用信

2、息,所以只要把源代码获取下来,就可以从中提取想要的信息。最关键的环节就是构造一个请求并发送给服务器,然后接收到响应后便于之后的内容解析。构造一个请求爬虫基本原理爬虫流程2.分析网页源代码、提取数据正则表达式方法,万能但效率低。据 网 页 节 点 属 性、CSS选 择 器 或XPath来提取网页信息的方法。节点的属性文本值爬虫基本原理爬虫流程3.保存数据TXT文本、JSON文本、XML关系型数据库SQLsever、MySQL,非关系型数据库MongoDB视频、音频等特定格式保存形式,多种多样爬虫基本原理爬虫可以代替人来完成这些操作。自动化程序爬虫基本原理爬虫就是代替我们来完成这份爬取工作的自动化

3、程序,它可以在抓取过程中进行各种异常处理、错误重试等操作,确保爬取工作持续高效的运行。当手工无法完成提取信息时爬虫基本原理02常用的爬虫工具常用的爬虫工具静态网页爬虫编程类工具可 视 化 采 集 器静态网页爬虫编程类工具可视化采集器代表性工具Python、Java和PHP等八爪鱼数据采集器、火车采集器、后羿采集器等优点通用性和可协作性学习简单、容易上手,可满足大部分数据采集需求缺点编码工作比较烦琐、学习成本高无法满足复杂、大规模的采集任务03八爪鱼介绍静态网页爬虫八爪鱼可简单快速地将网页数据转化为结构化数据,存储于Excel、数据库等多种形式。八爪鱼满足了网页数据抓取的大部分需求。静态网页爬虫八爪鱼V7版的4种采集模式谢谢观看主讲人:朱景伟义乌工商职业技术学院

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号