《Excel-电商数据分析》教学课件—03数据采集方法

上传人:sat****105 文档编号:290121031 上传时间:2022-05-09 格式:PPTX 页数:36 大小:3.82MB
返回 下载 相关 举报
《Excel-电商数据分析》教学课件—03数据采集方法_第1页
第1页 / 共36页
《Excel-电商数据分析》教学课件—03数据采集方法_第2页
第2页 / 共36页
《Excel-电商数据分析》教学课件—03数据采集方法_第3页
第3页 / 共36页
《Excel-电商数据分析》教学课件—03数据采集方法_第4页
第4页 / 共36页
《Excel-电商数据分析》教学课件—03数据采集方法_第5页
第5页 / 共36页
点击查看更多>>
资源描述

《《Excel-电商数据分析》教学课件—03数据采集方法》由会员分享,可在线阅读,更多相关《《Excel-电商数据分析》教学课件—03数据采集方法(36页珍藏版)》请在金锄头文库上搜索。

1、数据采集方法3.1数据采集的基础知识3.2数据采集1爬虫权限申明23CONTENTSURL构成原理网站的构成4HTML请求与响应5静态数据采集6动态数据采集爬虫权限申明PART ONE爬 虫 权 限 申 明在开展数据采集工作前需要了解数据采集的基础知识,只有了解了数据采集的知识才能保证数据采集工作的正常开展。大多数网站都有一个名为robots.txt的文档,用于判断是否可以禁止访客获取数据。对于没有设定robots.txt的网站,可以通过网络爬虫获取没有加密口令的数据,也就是该网站所有页面数据都可以爬取。以淘宝网为例,浏览器访问https:/ BaiduspiderDisallow: /URL

2、构成原理PART TWOU R L 构 成 原 理统一资源定位符(Uniform Resource Locator,URL),是用于完整地描述Internet网页和其他资源地址的一种标识方法。互联网上每个文件都有其对应的唯一URL。基本格式如下。scheme:/host:port#/path/?query-string#anchor其中scheme:协议(如http,https,ftp);host:服务器的IP地址或者域名;port#:服务器的端口(如果是走协议默认端口,缺省端口80);path:访问资源的路径;query-string:参数,发送给http服务器的数据;anchor:锚(跳转

3、到网页的指定锚点位置)。Protocol(协议)指定使用的传输协议,数据采集中最常遇到的是HTTP/HTTPS协议。Hostname(主机名)是指存放资源的服务器的域名系统(DNS) 主机名或IP 地址。Port(端口号)各种传输协议都有默认的端口号,如http协议的默认端口为80。如果输入时省略,则使用默认端口号。Path(路径)由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。Parameters(参数)这是用于指定特殊参数的可选项。Query(查询)可选,用于给动态网页传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。Fragment(信

4、息片断)用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。例:网站的构成PART THREEH T M L网页由3个部分组成,分别是HTML(超文本标记语言)、CSS(层叠样式表)和JavaScript(活动脚本语言)。用人体来比喻的话,HTML是人的骨架,并且定义了人的嘴巴、眼睛、耳朵等器官要长在哪里。CSS是人的外观细节,如嘴巴长什么样子,眼睛是双眼皮还是单眼皮,是大眼睛还是小眼睛,皮肤是黑色的还是白色的等特征。JavaScript表示人的技能,例如跳舞、唱歌或者演奏乐器。(HTML,HyperText Markup Language)超

5、文本标记语言是一种用于创建可从一个平台移植到另一平台的超文本文档的标记语言,常用于创建Web页面。HTML文件是带有格式标识符和超文本链接的内嵌代码的ASCII文本文件HTML结构。 HTML文本是由HTML命令组成的描述性文本,HTML命令可以说明文字、图形、动画、声音、表格、链接等。HTML网页结构包括头部(head)、主体(body)两大部分。头部描述浏览器所需的信息,主体包含所要说明的具体内容。 HTML是制作网页的基础,在网络营销中介绍的静态网页,就是以HTML为基础制作的网页,早期的网页都是直接用HTML代码编写的,不过现在有很多智能化的网页制作软件(常用的如FrontPage,D

6、reamweaver等)通常不需要人工写代码,而是由这些软件自动生成代码。尽管不需要自己写代码,但了解HTML代码仍然非常重要,了解认识HTML是学习网络爬虫的基础知识。H T M LHTML是整个网页的结构,相当于整个网站的框架。HTML的标签都是成对出现的,常见的标签如表1。常见的HTML标签.表示标记中间的元素是网页.表示用户可见的内容.表示框架.表示段落.表示列表.表示图片.表示标题.表示超链接表1C S S(CSS,Cascading Style Sheets)层叠样式表是用于表现HTML等文件样式的一种计算机语言。CSS不仅可以静态地修饰网页,还可以和各种脚本语言一起动态地对网页各

7、元素进行控制。 CSS是控制样式结构的语言,主要用于控制网页结构和信息表现。CSS代码可以直接写在HTML网页代码中或者单独写在CSS文件中。无论哪一种方式,样式单都包含将样式应用到指定类型的元素的规则。样式规则由一个或多个样式属性及其值组成,外部使用时,扩展名为.css的文档放置样式单规则,只要引用.css文档即可。样式规则可以用来控制网页中的元素,如文本段落以及链接的格式化指令。内部样式单可以直接放在网页中,外部样式单保存在一个或多个独立的文档中,网页只要通过一个特殊标签就可以引入外部样式单。CSS中的“层叠”表示样式单规则应用于HTML文档元素的方式。CSS样式单中的样式形成一个层次结构

8、,更具体的样式覆盖通用样式。样式规则的优先级由CSS根据这个层次结构决定,从而实现级联效果。J a v a S c r i p t JavaScript是一种具有面向对象能力的、解释型的程序设计语言。更具体一点,它是基于对象和事件驱动并具有相对安全性的消费者端脚本语言。因为它不需要在语言环境下运行,只需要有支持它的浏览器即可。它主要用于验证发往服务器端的数据、增加Web互动、加强用户体验度等。 交互的内容和各种特效都在JavaScript中,JavaScript描述了网站中的各种功能。HTML请求与响应PART FOURH T M L 请 求 与 响 应 HTML的工作机制是当用户在浏览器的地

9、址栏中输入一个网址并按【Enter】键之后,浏览器会向HTTP服务器发送HTTP请求。例如,在浏览器访问时,浏览器发送一个Request请求获取http:/ T M L 请 求 与 响 应刷新页面(可按【F5】键),可获取许多文件,这个过程也称为抓包,如图3所示。常见的HTML请求方法有:GET、POST。两种方法的权限不同:GET可查看数据;POST除了有查看权限,还有修改、删除、增加的权限,因此许多黑客会利用POST的方法对服务器数据进行篡改。图3静态数据采集PART FIVE静 态 数 据 采 集静态数据是指采集的目标数据在网页源码中,而且是一次性加载在网页中。例:采集休斯敦火箭队球员最

10、新赛季的历史数据。球员表现数据如图4所示。图4静 态 数 据 采 集解:如图3-4所示,在Excel的【数据】选项卡中,单击【自网站】选项,获取网站的数据。如图3-5所示,在弹出的【从Web】对话框中,键入网址。图5图6静 态 数 据 采 集如图7所示,在【导航器】对话框中通过表视图可以观察到“Table 0”是目标数据,单击导航器中的【Table 0】表,再单击【编辑】按钮进入PowerQuery编辑器。图7静 态 数 据 采 集如图8所示,进入Power Query编辑器后,发现一列空列,单击鼠标右键,在弹出的快捷菜单中单击【删除】选项,将该列删除。如图9所示,筛选球员数据,将“总计”“全

11、队数据”和“对手数据”等无用的数据过滤掉。图8图9静 态 数 据 采 集如图10所示,在Power Query编辑器【开始】选项卡中单击【关闭并上载】选项,将数据导入Excel中。加载在表格中的数据,如图11所示。图10图11静 态 数 据 采 集例:批量采集球队最新赛季的历史数据,如表2所示球队名称缩写马刺SAS灰熊MEM火箭HOU小牛DAL黄蜂NOH表2解:将数据填入Excel工作表,如图12所示,在【数据】选项卡中单击【自表格/区域】选项,将数据导入Power Query编辑器。如图13所示,由于数据不是表,因此会弹出“创建表”对话框,在对话框中勾选【表包含标题】。图12图13静 态 数

12、 据 采 集如图14所示,将数据导入Power Query编辑器后,先创建URL,在【添加列】选项卡中单击【自定义列】选项。图14图15如图15所示,在【自定义列】界面的【自定义列公式】文本框中键入“http:/www.stat- 态 数 据 采 集创建好URL后再次添加自定义列,采集URL数据,如图16所示,在【添加列】选项卡中单击【自定义列】选项。如图17所示,在弹出的“自定义列”设置界面中,在自定义列公式文本框中,键入“Web.Page(Web.Contents (URL)0Data”。图16图17M函数说明:Web.Page是以网页的方式加载数据。Web.Contents是将网页以二进

13、制文件的格式下载。0Data是打开网页中的第一张表格,也就是上例的“Table 0”。静 态 数 据 采 集如图18所示,确定自定义列后,如果是首次连接该域名会提示数据隐私设置,勾选【忽略此文件】,单击【保存】按钮即可采集到数据。如图19所示,展开Table,空列可以直接取消勾选,并且取消勾选【使用原始列名作为前缀】。图18图19静 态 数 据 采 集如图20所示,展开数据后,取消勾选“总计”“全队数据”“对手数据”。如图21所示,按住【Ctrl】键,将不用的列选中,单击鼠标右键,在弹出的快捷菜单中单击【删除列】选项。图20图21静 态 数 据 采 集如图22所示,在Power Query编辑

14、器【开始】选项卡中单击【关闭并上载】选项。加载在表格的数据,如图23所示。图22图23动态数据采集PART SIX动 态 数 据 采 集表3静态数据是指采集目标数据在JS或XHR中,在网页中有特定操作才会向服务器请求加载。例:现在需要批量采集马刺和火箭两只球队在2017年和2018年两年的球员表现数据,以便于对比两只球队的球员表现。解:如表3所示,先根据球队名称、缩写和年份创建球队信息表。球队名称缩写年份马刺SAS2017马刺SAS2018球队信息表球队名称缩写年份火箭HOU2017火箭HOU2018图22如图22所示,在浏览器的开发者模式下,进入NetWork(网络)界面,选择不同年份赛季,

15、此时右侧的NetWork窗口的右侧会新增文件链接,单击该新增文件,在Preview窗口可查看文件内容。如图23所示,单击【Headers】选项卡,从“Headers”窗口可以看到请求链接Request URL: http:/www.stat- 态 数 据 采 集图24图25数据加载好后,就可以将需要采集的球队和年份数据作为参数导入采集过程。如图24所示,将表3中的数据填入Excel工作表,在【数据】选项卡中单击【自表格/区域】选项,将数据导入Power Query编辑器。如图25所示,由于数据不是表格形式,会弹出“创建表”对话框,在对话框中勾选【表包含标题】选项。动 态 数 据 采 集图26图

16、27如图26所示,进入Power Query编辑器后,先将年份的格式设置为文本,便于后续作为参数传入URL中。创建目标URL,如图27所示,在【添加列】选项卡中单击【自定义列】选项。动 态 数 据 采 集图28图29如图28所示,键入“=http:/www.stat- season=&年份&col=pts&order=1&isseason=1”并将新列名设置为“URL”。创建好URL后,根据URL下载文件,如图29所示,在【添加列】选项卡中单击【自定义列】选项。动 态 数 据 采 集图30键入“Web.Page(Text.FromBinary(Web.Contents(URL),65001)0Data”并将新列名设置为“URL”,如图3-32所示。动 态 数 据 采 集M函数说明:Text.FromBinary是将二进制文件转成文本,其语法结构为:Text.FromBinary(binary as nullable binary, optional encoding as nullable number) as nullable text。本例使用该函数是为了解决乱码问题,第二个参数6

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号