大数据分析及应用实践全书课件汇总整本书电子教案最新

资源描述

《大数据分析及应用实践全书课件汇总整本书电子教案最新》由会员分享，可在线阅读，更多相关《大数据分析及应用实践全书课件汇总整本书电子教案最新（196页珍藏版）》请在金锄头文库上搜索。

1、大数据分析及应用实践大数据分析及应用实践第第1 1章章认识大数据认识大数据本章内容本章内容1.1 大数据综述1.1.1 大数据的产生1.1.2 大数据的特征1.2 可视化表现形式1.2.1 大数据定义1.2.2 大数据的基本特征1.3 大数据思维1.3.1 大数据思维的变革1.3.2 大数据思维的关注点1.4 大数据的处理过程1.4.1 大数据采集1.4.2 大数据导入与预处理1.4.3 大数据统计与分析1.4.4 大数据挖掘1.5 大数据思维1.5.1 InfoSphereBigInsights简介1.5.2 BigQuery简介1.5.3 “魔镜”简介1.6 大数据的应用1.6.1 大数

2、据助石油公司智能营销1.6.2 大数据在乳业公司预测产奶量实验1 认识大数据分析工具“魔镜” 1.1 1.1 大数据综述大数据综述 1.1.1 1.1.1 大数据的产生大数据的产生随着互联网逐渐过渡到物联网，数据从而得到爆发式增长，因而产生了各色各样的大数据。网络中互联的主体不仅仅是人，可以是智能终端、传感器、乃至可穿戴设备等。大数据(bigdata,megadata)又称巨量数据，指的是海量、高增长率和多样化的信息资产。大数据革命正在对世界产生巨大的系统性影响和深远意义。 1.1.2 1.1.2 大数据大数据的的特征特征与传统数据的产生方式相比，大数据具有三个明显的特征：数据量大：数据量大

3、是大数据的明显特征，一般计量单位都是PB、EB甚至ZB。非结构性：大数据既包含结构化数据也包含非结构化数据，而且通过特定的大数据技术从大量非结构化数据中提取有用的信息。实时性：在互联网高速发展的背景下，我们所谈到的大数据不仅仅数量巨大，实时性、动态性成了大数据的另一重要特征。1.2 1.2 大数据概念大数据概念 1.2.1 1.2.1 大数据定义大数据定义麦肯锡（美国首屈一指的咨询公司）是研究大数据的先驱。在其报告Bigdata:Thenextfrontierforinnovation,competition,andproductivity中给出的大数据定义是：大数据指的是大小超出常规的数据

4、库工具获取、存储、管理和分析能力的数据集。即大数据是现有数据库管理工具和传统数据处理手段很难处理的大型、复杂的数据集，其涉及到采集、存储、搜索、共享、传输和可视化等方面。 1.2.2 1.2.2 大数据的基本特大数据的基本特点点大数据的特点可归纳为“4V”，即Volume（容量），即海量的数据规模；Variety（种类），即多样的数据类型；Velocity（速度），即快速的数据流转和动态的数据体系；最重要的Value（价值），即巨大的数据价值。1.3 1.3 大数据思维大数据思维 1.3.1 1.3.1 大数据思维的变革大数据思维的变革大数据时代将带来深刻的思维转变，大数据不仅将改变每个人

5、的日常生活和工作方式，改变商业组织和社会组织的运行方式。1.从样本思维到总体思维意识的变革。2.容错思维意识的变革。3.从关注因果关系到相关关系的思维变革。4.从自然思维到智能思维的变革。 1.3.2 1.3.2 大数据思维的关注点大数据思维的关注点大数据思维是客观存在,大数据思维是新的思维观。大数据思维开启了一次重大的时代转型，人们对数据的关注点也发生了很大变化。1.数据思维的最核心是利用数据解决问题。2.大数据关注“有用”。3.由关注精确度转变为关注效率。4.关注定制产品。 1.41.4大数据的处理过程大数据的处理过程 1.4.1 1.4.1 大数据采集大数据采集在计算机广泛应用的今天

6、，数据采集的重要性是十分显著的。它是计算机与外部物理世界连接的桥梁。各种类型信号采集的难易程度差别很大。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。数据采集技术广泛应用在各个领域,比如摄像头，麦克风，都是数据采集工具。 1.4.2 1.4.2 大数据导入大数据导入/ /预处理预处理虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。 1.4.3 1.4.3 大数据统计大数据统计与与分析分析

7、大数据时代的来临将对我们的现实生活、企业的运营管理模式提出了新的挑战，也带来新的市场机会。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些数据进行专业化处理。可以说大数据分析是决策过程中的决定性因素，也是大数据时代发挥数据价值的关键环节。大数据分析技术帮助企业了解客户、锁定资源、规划生产、开拓新的业务。 1.4.4 1.4.4 大数据挖掘大数据挖掘从海量数据中发现有价值的信息，把这些数据转化成有组织的知识，这种需求导致了大数据挖掘的诞生。数据挖掘主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。1.5 1.5 大数

8、据分析工具简介大数据分析工具简介 1.InfoSphere BigInsights1.InfoSphere BigInsights 由IBM推出的大数据平台InfoSphereBigInsights为用于处理流数据和持久性数据的软件。旨在帮助公司从大量不同范围的数据中挖掘商机并进行分析，为了能够对大量丰富的数据进行筛选，BigInsights提供了内置分析技术和无分享硬件集群。它可以透明地分配存储在附加至集群中各种节点的磁盘上的文件数据，将应用程序的子任务分配给位于目标数据子集附近的处理器。 2.BigQuery2.BigQuery BigQuery是Google推出的一项Web服务，该服务让

9、开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。BigQuery旨在分析数十亿行近似的数据，使用类SQL语法。BigQuery支持分析交互风格,使用SELECT命令构建查询。查询语言包括支持标准操作，比如joining、sorting和grouping，以及内嵌数据结构。可以支持统计函数，比如count、sum、average、variance和standarddeviation（标准偏差）等。 3.3.魔镜魔镜（moojnn)moojnn) 大数据可视化处理软件魔镜为国云数据科技有限公司研发，为我国大数据领域领先的分析平台。魔镜支持各种各样的数据源。无论是Excel

10、文件、传统数据库、大数据、集成数据，甚至微博微信淘宝，魔镜都可以支持。魔镜颠覆传统Excel分析和报表工具，自动拖拽建模。操作简单、应用方便。魔镜中现为我国最大的可视化分析挖掘平台、开放的数据市场和拥有超大的视觉效果库。目前，已超过一万多家企业在使用,魔镜为提供全行业大数据解决方案。1.6 1.6 大数据应用案例大数据应用案例 1.6.1 1.6.1 大数据助石油公司精准管理、智能营销大数据助石油公司精准管理、智能营销国内某石油公司希望通过其庞大的销售数据了解到销售代表的销售业绩与KPI，希望能从各个角度对整体的销售数据进行切片分析并根据市场走势制定合适的营销策略。该企业选择大数据分析工具魔

11、镜来预测综合市场指数，全维度的分析数据并挖掘出数据背后隐藏的巨大的价值。员工KPI考核指标客户分析石油生产流程监控管理 1.6.21.6.2大数据在乳业公司大数据在乳业公司预测产量值预测产量值国内某乳业公司为了保证提供优质的鲜乳原料，实现真正意义上的“横跨东西、纵跨南北”的战略布局，其原奶事业部想对取决于五大区的奶牛产奶量和奶牛数量的供奶量进行预测。同时，供奶地区较多，地域跨度大，奶牛存栏情况和不同泌乳周期的产奶量等都各不相同，而原奶事业部自身的可视化展示效果较为单一。如何将不同的地域、不同的产奶量等用多元的可视化效果展示都是原奶事业部想要解决的问题。新投产泌乳牛的数量情况大数据分析工具魔

12、镜为改乳业公司建立的奶量预测系统是通过业务逻辑，以历史供奶量为基准进行估算和预测的。大数据分析工具魔镜的大数据挖掘功能可以通过历史数据，并利用逻辑回归算法进行数据预测。预测置信度高，但前期的数据积累必不可少。未来对奶量的预测还应建立业务模型，列举影响供奶的内外因，设置权重，从而回归预测。谢谢！第第2 2章章大数据技术基础大数据技术基础2.1 基础架构支持2.1.1 Hadoop2.1.2 Hbase2.1.3 MapReduce2.1.4 Hive2.1.5 Pig2.1.6 R语言2.2 云计算2.2.1 云计算的特点2.2.2 云计算与大数据2.3 数据采集2.3.1 数据采集的意义

13、2.3.2 数据采集的方法2.4 数据存储2.4.1 数据存储的概念2.4.2 数据存储方式2.4.3 常见数据源类型实验1 识大数据分析工具“魔镜” 本章内容本章内容目前，建立在大数据基础之上的大分析系统有两个探索方向。方向之一是：互联网企业直接在Hadoop基础之上，借助于云计算模式，通过加强开源数据库系统Hive/Hbase等工具能力，逐步提升大分析所需的分析能力。方向之二是：传统的数据仓库处理厂家引入Hadoop云计算的技术，扩展原有的信息处理能力，融合传统数据仓库能力和Hadoop云计算能力，在应用层支撑更丰富的大分析能力。不管怎样，进行大数据的大分析，需要一定的架构支撑和技术支持。

14、2.1 2.1 基础架构支持基础架构支持2.1.1 Hadoop2.1.1 HadoopHadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统HDFS（HadoopDistributedFileSystem）。Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。Hadoop之父Hadoop Hadoop项目的发起人为DougCutting，称之为Hadoop之父。19

15、85年，Cutting毕业于美国斯坦福大学。DougCutting主导的ApacheNutch项目是Hadoop软件的源头，该项目始于2002年，是ApacheLucene的子项目之一。Hadoop技术架构 2.1.2 HBase2.1.2 HBase HBase是运行在Hadoop上的NoSQL数据库，它是一个分布式的和可扩展的大数据仓库，也就是说HBase具有HDFS的分布式处理的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者批处理的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数

16、据存储的数据库。所谓非结构化数据存储就是说HBase是基于列的而不是基于行的模式。2.1.3 MapReduce2.1.3 MapReduceMapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。Map-映射，Reduce-归约。MapReduce采用分而治之的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是任务的分解与结果的汇总。在Hadoop中，每个MapReduce任务都被初始化为一个Job，每个Job又可以分为两种阶段：map阶段和reduce阶段。这两个阶段分

17、别用两个函数表示，即map函数和reduce函数。map函数接收一个形式的输入，然后同样产生一个形式的中间输出，Hadoop函数接收一个如形式的输入，然后对这个value集合进行处理，每个reduce产生0或1个输出，reduce的输出也是形式的。2.1.4 Hive2.1.4 HiveHive是建立在Hadoop上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据。同时，这个语言也允许熟悉MapReduce开发者的

18、开发自定义的mapper和reducer来处理内建的mapper和reducer无法完成的复杂的分析工作。2.1.5 Pig2.1.5 PigPig是一个基于Hadoop的大规模数据分析平台，Pig包含两个部分：PigInterface,PigLatin。它提供的SQL-LIKE语言叫PigLatin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。 2.1.6 R2.1.6 R语言语言 R是一套完整的数据处理、计算和制图软件系统。其功能包括：数据存储和处理系统；数组运算工具（其向量、矩阵运

19、算方面功能尤其强大）；完整连贯的统计分析工具；优秀的统计制图功能；简便而强大的编程语言：可操纵数据的输入和输出，可实现分支、循环。R语言擅长在Hadoop分布式文件系统中存储的非结构化数据的分析。R现在还可以运行在HBase这种非关系型的数据库以及面向列的分布式数据存储之上。 2.2 2.2 云计算云计算云计算技术是硬件技术和网络技术发展到一定阶段而出现的一种新的技术模型。云计算是分布式存储、网格计算、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物。云计算是一种计算模型，它将计算任务分布在大量计算机构成的资源池上，使用户能够按照自己的需要获取计算、存储和信息服务。这里提到的

20、资源池也称为“云”。“云”是一些可以进行自我维护和自我管理的虚拟计算资源，通常是一些大型服务器集群，包括计算服务器、存储服务器和宽带资源等。2.2.1 2.2.1 云计算的特点云计算的特点1.可扩展性：从资源低效率的分散使用到资源高效的集约化使用正是云计算的基本特征之一。2.按需提供资源服务：云计算系统实现按需向用户提供资源能大大节省用户的硬件资源开支。3.虚拟化：现在的云计算平台的重要特点是利用软件来实现硬件资源的虚拟化管理、调试及应用。4.超大规模：应用于“云”的服务器数量就在几十万甚至上百万之多，“云”也会给用户带来前所未有的计算能力。5.高可靠性和安全性：在使用“云”的服务的过程中，服

21、务器使用了数据多副本容错、计算节点同构可互换等措施在保障服务的高可靠性。 2.2.2 2.2.2 云计算与大数据云计算与大数据云计算与大数据之间是相辅相成，相得益彰的关系。云计算就是硬件资源的虚拟化；大数据分析就是海量数据的高效处理。大数据挖掘处理需要云计算作为平台，而大数据涵盖的价值和规律则能够使云计算更好的与行业应用结合并发挥更大的作用。云计算将计算资源作为服务支撑大数据的挖掘，而大数据的发展趋势是对实时交互的海量数据查询、分析提供了各自需要的价值信息。2.3 2.3 数据采集数据采集2.3.1 2.3.1 数据采集的意义数据采集的意义足够的数据量是企业大数据战略建设的基础，数据采集成为大

22、数据分析的前奏。数据采集是大数据价值挖掘中重要的一环，其后的分析挖掘都是建立在数据采集的基础之上。在计算机广泛应用的今天，数据采集的重要性是十分显著的。各种类型信号采集的难易程度差别很大。实际采集时，噪声也可能带来一些麻烦。数据采集时，有一些基本原理要注意，还有更多的实际的问题要解决。2.3.2 2.3.2 数据采集的方法数据采集的方法1.基于物联网采集方法2.系统日志采集方法3.网络数据采集方法4.其他数据采集方法2.4 2.4 大数据存储大数据存储2.4.12.4.1数据存储的概念数据存储的概念大数据分析相比于传统的数据仓库应用，具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在

23、的4V特征，传统的存储技术不能满足大数据存储的需要，通过ETL技术数据资源被从源系统中提取，并被转换为一个标准的格式，再使用NoSQL数据库进行数据库存取管理，通过分布式网络文件系统将数据信息存储在整个互联网络资源中，并用可视化的操作界面随时满足用户的数据处理需求。 2.4.2 2.4.2 数据存储方式数据存储方式针对大数据的存储，主要采用以下两种存储方式。1.开放系统的直连式存储(DirectAttachedStorage，DAS)，外部存储设备都是直接挂接在服务器内部总线上，数据存储设备是整个服务器结构的一部分。直连存储无法共享，因此经常出现的情况是某台服务器的存储空间不足，而其他一些服

24、务器却有大量的存储空间处于闲置状态却无法利用。2.网络附加存储(NetworkAttachedStorage,NAS)，它采用独立于服务器，单独为网络数据存储而开发的一种文件服务器来连接所存储设备。这样数据存储就不再是服务器的附属，而是作为独立网络节点而存在于网络之中，可由所有的网络用户共享。2.4.3 2.4.3 常见数据源类型常见数据源类型1.文本类型：如Excel、TXT、CSV等。2.数据库类型：如MySQL、SQLSever、Oracle、PostgreSQL等。3.数据集群类型：Hive、Spark等。谢谢！第第3 3章章大数据管理大数据管理本章内容本章内容3.1 3.1 大

25、数据的清洗3.1.1 3.1.1 数据质量数据质量3.1.2 3.1.2 数据清洗数据清洗的作用的作用3.1.3 3.1.3 数据清洗数据清洗的方法和过程的方法和过程3.1.4 3.1.4 数据清洗实例数据清洗实例3.2 3.2 数据类型和数据转换3.2.1 3.2.1 数据类型数据类型3.2.2 3.2.2 数据转换数据转换3.3 3.3 大数据的提取和加载实验3数据处理3.1 3.1 大大数据数据的清洗的清洗大大数数据据时时代代下下，管管理理的的关关键键依依靠靠着着数数据据，但但随随着着信信息息量量的的不不断断增增长长、智智慧慧工工具具的的不不断断涌涌现现，如如何何对对数数据据进进行行有

26、有效效清清洗洗实实现现数数据据的的真真实实性性，有有效效性性，唯唯一一性性变变得得十十分分具具有有挑挑战战。为为了了使使数数据据的的记记录录更更准准确确、一一致致，消消除除重重复复和和异异常常记记录录就就变变得得很很重重要要，所所以以数数据据预预处处理理工工作作是是相相当当必必要要的的。数数据据清清洗洗作作为为数数据据预预处处理理的的一一个个重重要要环环节节，在在大大数数据据分分析析过过程程中中占占据据重重要位置。要位置。 3.1.1 3.1.1 数据质量数据质量 1.数据质量的四大要素数据质量的四大要素在技术发展的不同阶段，对数据质量有不同的定义在技术发展的不同阶段，对数据质量有不同的定义

27、和标准。早期对数据质量的评价标准主要以数据准确性和标准。早期对数据质量的评价标准主要以数据准确性为出发点，随着信息系统功能和定位的不断延伸，用户为出发点，随着信息系统功能和定位的不断延伸，用户关心的重点逐步由数据准确性扩展至合法性、一致性等关心的重点逐步由数据准确性扩展至合法性、一致性等方面。归纳起来，数据质量具有四大要素：方面。归纳起来，数据质量具有四大要素：完整性完整性一致性一致性准确性准确性及时性及时性2. 数据质量管理的关键数据质量管理的关键制订规范的数据质量度量标准制订规范的数据质量度量标准建立有效的数据质量监管体系建立有效的数据质量监管体系建立完善的数据质量管理制度建立完

28、善的数据质量管理制度 3.1.2 3.1.2 数据数据清洗的作用清洗的作用数据清洗就是按照一定的规则把数据清洗就是按照一定的规则把“脏脏数据数据”“洗掉洗掉”，过滤不符合要求的数据，主要包括不完整的数据、，过滤不符合要求的数据，主要包括不完整的数据、错误的数据、重复的数据，然后将过滤的结果交给业务错误的数据、重复的数据，然后将过滤的结果交给业务主管部门，确认是否过滤掉还是修正之后再进行提取。主管部门，确认是否过滤掉还是修正之后再进行提取。因此如何对数据进行有效的清理和转换，使之成为符合因此如何对数据进行有效的清理和转换，使之成为符合数据分析要求的数据源，是影响数据分析准确性的关键数据分析要求

29、的数据源，是影响数据分析准确性的关键因素。因素。3.1.3 3.1.3 数据数据清洗的方法和过程清洗的方法和过程1. 数据清洗的方法数据清洗的方法通过人工检查通过人工检查通过专门编写的应用程序通过专门编写的应用程序针对特定应用领域的数据清理针对特定应用领域的数据清理针对与特定应用领域无关的数据清理针对与特定应用领域无关的数据清理3.1.3 3.1.3 数据数据清洗的方法和过程清洗的方法和过程2. 数据清洗的过程数据清洗的过程第一阶段第一阶段：数据分析数据分析、定义错误类型定义错误类型第二阶段第二阶段：搜索搜索、识别错误记录识别错误记录第三阶段第三阶段：修正错误修正错误3.1.4 3.1

30、.4 数据数据清洗的实例清洗的实例DataEye 原始数据源提供一组游戏下载时长数据集原始数据源提供一组游戏下载时长数据集如果直接计算游戏平均如果直接计算游戏平均下载时长，得到的结果为下载时长，得到的结果为23 062.57 秒，约秒，约6.4小时，与小时，与实际情况严重不符，说明这实际情况严重不符，说明这一数据集受到噪声数据的显一数据集受到噪声数据的显著影响。著影响。3.1.4 数据清洗的实例将数据集等分为将数据集等分为240 300 个区个区间，找到数据集中区域间，找到数据集中区域0，3 266.376，对取值之间的数，对取值之间的数据做箱型图分析，对此区间外据做箱型图分析，对此区间外的

31、数据剔除离群值，重新计算的数据剔除离群值，重新计算平均下载时长平均下载时长最后计算目标数据源的平均下载最后计算目标数据源的平均下载时长为时长为192.93 秒，约秒，约3.22 分，分，符合实际情况。符合实际情况。通过数据分布特征及箱型图的方法来识别、剔除噪声通过数据分布特征及箱型图的方法来识别、剔除噪声数据较为快捷且效果显著。数据较为快捷且效果显著。3.2.1 3.2.1 数据类型数据类型1. 整理数据类型整理数据类型（1）INT（或（或INTEGER）数据类型；（）数据类型；（2）SMALLINT 数据数据类型类型（3）TINYINT 数据类型；（数据类型；（4）BIGINT 数据类型数据

32、类型2. 浮点数据类型浮点数据类型（1）REAL 数据类型；（数据类型；（2）FLOAT 数据类型数据类型（3）DECIMAL 数据类型；（数据类型；（4）NUMERIC 数据类型数据类型3. 二进制数据类型二进制数据类型（1）BINARY 数据类型数据类型；（；（2）VARBINARY 数据类型数据类型 3.2 3.2 数据数据类型和数据转换类型和数据转换3.2.1 3.2.1 数据类型数据类型4. 逻辑数据类型逻辑数据类型 BIT 数据类型数据类型5. 字符数据类型字符数据类型（1）CHAR 数据类型；（数据类型；（2）NCHAR 数据类型数据类型（3）VARCHAR 数据类型；（数据类

33、型；（4）NVARCHAR 数据类型数据类型6. 文本和图像数据类型文本和图像数据类型（1）TEXT 数据类型；（数据类型；（2）NTEXT 数据类型；（数据类型；（3）IMAGE 数据类型数据类型7. 日期和时间数据类型日期和时间数据类型 DATETIME 数据类型用于存储日期和时间数据类型用于存储日期和时间3.2.2 3.2.2 数据转换数据转换数据转换是将数据从一种表示形式变为另一种表示形式的数据转换是将数据从一种表示形式变为另一种表示形式的过程。由于每一个软件后台数据库的构架与数据的存储形式都过程。由于每一个软件后台数据库的构架与数据的存储形式都是不相同的，因此就需要对数据进行转换。

34、例如，对两个操作是不相同的，因此就需要对数据进行转换。例如，对两个操作数进行运算，当操作数的类型不同，而且不属于基本数据类型数进行运算，当操作数的类型不同，而且不属于基本数据类型时，经常需要将操作数转换为所需要的类型，这个过程即为强时，经常需要将操作数转换为所需要的类型，这个过程即为强制类型转换。强制类型转换有两种形式：显式强制类型转换和制类型转换。强制类型转换有两种形式：显式强制类型转换和隐式强制类型转换。隐式强制类型转换。3.3 3.3 大数据的提取和加载大数据的提取和加载大数据的提取和加载是指将转换好的数据保存到数据仓库中去。大数据在加载时一般采用两种方式：完全刷新加载从技术角度上说，

35、完全刷新加载比增量提取和加载要简单得多，它适用于数据量不大并且时间代价和条件代价较小的情况。增量提取和加载如何精准快速地捕获变化的数据是实现数据增量加载的关键。（1）触发器方式；（2）时间戳方式；（3）全表比对方式（4）日志表方式；（5）系统日志分析方式谢谢谢谢！第四章第四章大数据统计分析技术大数据统计分析技术4.1 统计分析概述4.1.1 统计分析的概念4.1.2 统计分析的特点4.1.3 统计分析的应用4.2 统计分析的常见指标4.2.1 统计指标概述4.2.2 总量指标4.2.3 相对指标4.2.4 平均指标4.2.5 变异指标4.3 回归与预测4.3.1 回归4.3.2 预测实验

36、4 数据分析本章内容本章内容4.1 4.1 统计分析概述统计分析概述4.1.1 4.1.1 统计分析的概念统计分析的概念统计分析是指运用统计方法及与分析对象有关的知识，定量与定性相结合对样本数据进行的研究活动。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.14.1.1统计分析的概念统计分析的概念大数据分析是指用适当的统计分析方法对收集来的大量数据进行分析，提取有用的信息以及对数据加以详细研究和概括总结的过程。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.14.1.1统计分析的概念统计分析的概念统计分析的意义帮助企业了解客户、锁定资源、规划生产、开拓新

37、的业务；通过对消费者爱好、需求以及对品牌忠诚度等因素进行大数据分析，来制定服务和营销的智能决策；通过对通信、金融活动记录的大数据分析，来精准地拓展业务和更好地服务客户4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.24.1.2统计分析的特点统计分析的特点传统统计分析的特点目的与对象相统一定性与定量相结合系统性与全面性原则性能动性变化性 4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.24.1.2统计分析的特点统计分析的特点大数据统计分析的特点宏观与微观相统一方法理论尚未成熟全样本采样，实时性分析人才专业性较强能动性变化性 4.14.1大

38、数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据帮能源公司设置发电机地点丹麦能源公司维斯塔斯（Vestas Wind Systems）将利用业界领先的IBM大数据分析软件和卓越的IBM系统优化风力涡轮机配置方案，从而实现最高效的能量输出。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据帮零售企业制定促销策略沃尔玛对其顾客的购物行为进行了购物篮关联规则分析,结果是得到了尿不湿与啤酒的销售量双双增长。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.

39、3统计分析的应用统计分析的应用大数据对交通行为预测基于用户和车辆的LBS定位数据，分析人车出行的个体和群体特征，进行交通行为的预测。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据对疾病疫情预测 google成功预测了2009冬季流感的传播甚至可以具体到特定的地区和州。4.14.1大数据统计分析的核心思想大数据统计分析的核心思想4.1.34.1.3统计分析的应用统计分析的应用大数据帮助奥巴马大选连任成功 2012年11月奥巴马大选连任成功的胜利果实也被归功于大数据深入数据挖掘。4.2 4.2 统计分析的常见指标统计分析的常见指标

40、4.2.14.2.1统计分析指标概述统计分析指标概述统计指标简称指标，是反映同类社会经济现象总体综合数量特征的范畴及其具体数值。对统计指标通常有两种理解和使用方法：一是用来反映总体现象总体数量状况的基本概念，例如年末全国人口总数、全年国内生产总值、国内生产总值年度总长率等。二是反映现象总体数量状况的概念和数值。例如，2001年我国年末总人口数为127，627万人、全社会固定产投资增长率为13%等。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.14.2.1统计分析指标概述统计分析指标概述统计指标特点：总体性具体性 4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.14

41、.2.1统计分析指标概述统计分析指标概述统计指标的种类：按统计指标所说明的总体现象内容不同，可分为数量指标和质量指标；按统计指标按作用和表现形式不同，可分为总量指标、相对指标、平均指标、标志变异指标四类；按统计指标的作用和功能的不同，可以分为描述指标、评价指标、监测指标和预警指标； 4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.14.2.1统计分析指标概述统计分析指标概述统计指标体系是由若干个相互联系、相互作用的统计指标组成的整体，用以说明所研究社会经济现象各方面相互依存和相互制约的关系。通过数学公式形式表现出来的统计指标体系。例如，工业总产值=工业产品产量产品价格商品销售

42、额。指标之间不存在数学公式形式的关系，而只是存在着一种相互联系、相互补充的关系。例如，反映国内商品流转情况的指标(购进量、销售量、调拨量、库存量)所形成的指标体系； 4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标是反映社会经济现象在一定时间、空间条件下的总规模或总水平的最基本的综合指标，用绝对数表示，因此，总量指标又叫统计绝对数。如某企业去年总工资100万元，去年上半年总工资30万元，相减得去年下半年总工资。比如每年的政府工作报告都会公布关乎国计民生的重要总量指标。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指

43、标总量指标总量指标的作用：是认识社会经济现象的起点；是实行社会经济管理的依据之一；是计算相对指标和平均指标的基础；4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标的种类：总体单位总量指标和总体标志总量指标；时期指标和时点指标； 4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标的计量单位：实物单位；价值单位；劳动单位；4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.24.2.2总量指标总量指标总量指标的计算方法：直接计算法它是对研究对象用直接的计数、点数和测量等方法，登记各单位的

44、具体数值加以汇总，得到总量指标。如统计报表或普查中的总量资料，基本上都是用直接计算法计算出来的。间接推算法它是采用社会经济现象之间的平衡关系、因果关系、比例关系或利用非全面调查资料进行推算总量的方法。如利用样本资料推断某种农产品的产量，利用平衡关系推算某种商品的库存量等。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标又称相对数，是应用对比的方法，将两个相互联系的指标数值加以对比计算的一种比值，用来说明现象之间的数量对比关系。其数值表现为相对数，如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。相对数指

45、标计算公式为：相对指标=分子/分母（基数）4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标又称相对数，是应用对比的方法，将两个相互联系的指标数值加以对比计算的一种比值，用来说明现象之间的数量对比关系。其数值表现为相对数，如比重、比例、速度、程度、密度。比如2008年6月27日国内外主要钢铁企业的PE估值对比。相对数指标计算公式为：相对指标=分子/分母（基数）4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的作用：反映现象之间的相互联系程度，说明总体现象的质量、经济效益和经济实力情况。使原来

46、不能直接相比的数量关系变为可比，有利于对所研究失误进行分析比较。表明事物的发展程度、内部结构以及比例关系，为人们深刻认识事物提供依据。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的种类和计算原则（1）同一总体内部之比的相对指标计划完成程度相对指标：是用现象在某一段时间内同一总体的实际完成数与计划数对比的相对数，一般用百分数表示，基本公式为：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标（1）同一总体内部之比的相对指标结构相对指标：结构相对指标（又称比重）是利用分组法，将总体区分为不同特征的各

47、部分，以部分总量与总体总量对比求得比重或比率来反映总体内部组成状况的综合指标。它是分组的基础上计算出来的一种相对数。基本公式为：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的种类和计算原则（1）同一总体内部之比的相对指标比例相对指标：比例相对指标是在总体分组的基础上，各组成部分之间的数量对比的比值，反映总体内部的比例关系。是同一总体内不同部分之比，基本公式为：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标相对指标的种类和计算原则（1）同一总体内部之比的相对指标动态相对指标：动态相对指标是同

48、一总体中同一指标在不同时间上的指标数值对比，以表明现象的发展速度。统计上把用来作为比较标准的时期称为基期，把和基期对比的时期称为报告期，计算公式为：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标（2）两个总体之间对比的相对指标比较相对指标：就是由不同单位的性质相同的指标对比而确定的相对指标，说明某一种现象在同一时间内各单位发展的不平衡程度。一般用百分数、系数或倍数表示，计算公式为：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标（2）两个总体之间对比的相对指标强度相对指标：不属于同一总体的两个性质不同但相

49、互间有联系的总量指标对比的比值，用来反映现象的强度、密度和普遍程度、利用程度的综合指标，计算公式为： 4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.3 4.2.3 相对指标相对指标例如，某工厂生产产品A，全年计划生产100台，到三季度结束分别生产了90台。最后全年生产了120台。去年全年生产了90台。今年这个单位共100名员工，男60人。另外一家生产相同产品的厂家，今年年产量是80台。求计划完成相对指标、执行进度相对指标、结构相对指标、比例相对指标、动态相对指标、比较相对指标、强度相对指标，则有：计划完成相对指标=120/100=120%；执行进度相对指标=90/100=90%

50、结构相对指标=60/100=60%；比例相对指标=60/(100-60)=150:100动态相对指标=120/90=133.3%；比较相对指标=120/80=150%强度相对指标=100/100=1（台/人）正负。4. 4. 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标平均指标的概念平均指标是以反映总体的一般水平的综合指标，又称平均数，它是将一个总体内各个单位在某个数量标志上的差异抽象化，以反映这个总体一般水平的综合指标。比如2014年度北京市职工平均工资(又称社会平均工资)为7.76万元,月平均工资为6463元。4.2 4.2 统计分析的常见指标统计分析的常

51、见指标4.2.4 4.2.4 平均指标平均指标平均指标的特点：平均指标是个代表值，代表总体各单位标志值的一般水平；把总体各个单位某一标志数值的差异抵消掉。即总体内各同质单位存在数量差异，但在计算平均数时并不考虑这种差异，即把这种差异平均掉了。平均指标的作用：反映总体各单位标志值分布的集中趋势；用来比较同类现象在不同单位发展的一般水平及同一单位的同类指标在不同时期的发展状况；4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标平均指标的分类平均指标分为数值平均指标和位置平均指标。数值平均指标按计算方法分为算术平均数、调和平均数和几何平均数。位置平均平均指标

52、有众数和中位数。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标数值平均指标算术平均数：算术平均数是将总体各个单位的某一标志值相加除以总体单位数求的的标志值，计算公式为： 4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标数值平均指标加权算术平均数：当变量值已经分组，且各个标志值出现的次数不相同时，就可以采用加权算术平均数的形式计算平均指标，公式：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标数值平均指标调和平均数：在不掌握各组单位数以及总体单位数的情况下，只掌握

53、各组的标志值和各组的标志总量及总体总量的情况下，用此方法。简单调和平均数：加权调和平均数：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标数值平均指标几何平均数：几何平均数是用n个变量相乘开n次方的算术根来计算的平均数，在统计中，几何平均数常用于计算平均速度和平均比率。简单几何平均数：加权几何平均数：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标位置平均指标中位数：是根据变量值的位置来确定的平均数。将变量值按大小顺序排序，处于中间位置的变量值（或数据），公式为：4.2 4.2 统计分析的常见指标统计分析的

54、常见指标4.2.4 4.2.4 平均指标平均指标位置平均指标中位数：是根据变量值的位置来确定的平均数。将变量值按大小顺序排序，处于中间位置的变量值（或数据），公式为：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.4 4.2.4 平均指标平均指标位置平均指标众数是指总体中出现次数最多的标志值,用表示。众数也是一种位置平均数，近似计算公式为：4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.5 4.2.5 变异指标变异指标变异指标又称标志变动指标，它反映了总体各单位标志值的差异程度，它是说明总体标志值的变异、离散程度。例如用于股市投资分析的MACD指标（指数离差指标）。变异

55、指标的作用反映变量分布的离散趋势；反映平均数的代表性，总体单位变量值的离中趋势；量度事物发展均衡性。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.5 4.2.5 变异指标变异指标变异指标又称标志变动指标，它反映了总体各单位标志值的差异程度，它是说明总体标志值的变异、离散程度。例如用于股市投资分析的MACD指标（指数离差指标）。变异指标的作用反映变量分布的离散趋势；反映平均数的代表性，总体单位变量值的离中趋势；量度事物发展均衡性。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.5 4.2.5 变异指标变异指标变异指标的种类与计算全距（极差）：总体各单位标志值中最大值和

56、最小值的差距。它最简明地说明标志值的变动范围，计算公式为：平均差：总体各单位标志值与平均数离差绝对值的平均数。它表示总体各标志值与平均数的平均差异程度，用A.D表示平均差。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.5 4.2.5 变异指标变异指标全距（极差）：总体各单位标志值中最大值和最小值的差距。它最简明地说明标志值的变动范围，计算公式为：平均差：总体各单位标志值与平均数离差绝对值的平均数。它表示总体各标志值与平均数的平均差异程度，用A.D表示平均差。4.2 4.2 统计分析的常见指标统计分析的常见指标4.2.5 4.2.5 变异指标变异指标方差和标准差：方差和标准差是

57、测度标志变异最重要最常用的指标，它以变量值与平均数的离差平方为基础，讨论平均数的代表性，是变量值与平均数的离差平方的平均数，标准差用表示。4.3 4.3 回归与预测回归与预测4.3.14.3.1回归回归回归的概念一般说来，回归就是在分析自变量和因变量之间相关关系的基础上，建立变量之间的方程。回归的本质是一种数学模型，通过建立变量间适当的依赖关系，以分析数据内在规律，并可用于预报、控制等问题 4.3 4.3 回归与预测回归与预测4.3.14.3.1回归回归公式：y = a + b x公式：y =sin( x)4.34.3回归与预测回归与预测4.3.24.3.2预测预测统计预测属于预测方法研究范畴

58、，即如何利用科学的统计方法对事物的未来发展进行定量推测，并计算概率置信区间。是一种具有通用性的方法。最简单的预测方法就是回归预测，即将回归方程作为模型，根据自变量在预测期的数量变化来预测因变量值。4.34.3回归与预测回归与预测4.3.24.3.2预测预测预测步骤：确定变量：明确预测的具体目标，也就确定了因变量。建立模型：依据自变量和因变量的历史统计资料进行计算，在此基础上建立回归分析方程，即回归分析预测模型。进行分析：回归分析是对具有因果关系的影响因素（自变量）和预测对象（因变量）所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时，建立的回归方程才有意义。谢谢！第第5 5章章

59、数据挖掘数据挖掘本章内容本章内容5.1 大数据挖掘概念5.2 大数据挖掘概念5.3 数据挖掘流程数据挖掘的常用方法实验5数据挖掘5.1.1 5.1.1 数据挖掘的数据挖掘的起源起源从我们的观点来看，大部分数据挖掘问题和相应的解决方法都起源于传统的数据分析。数据挖掘起源于多种学科，其中最重要的两门是统计学和机器学习，统计学起源于数学，因此，它强调数学上的精确。在实践测试之前，在理论基础上建立一些东西的要求是明智的，相比之下，机器学习更多地起源于计算机实践。这就导致了实践的倾向，自觉地对一些东西进行检验来查看它表现的好坏，而不是去等待有效性的正式证据。5.1 5.1 大大数据挖掘概念数据挖掘概

60、念5.1.2 5.1.2 数据挖掘的数据挖掘的定义定义数据挖掘（Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。5.2.1 5.2.1 数据总结数据总结数据总结目的是对数据进行浓缩，给出它的总体综合描述。通过对数据的总结，数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总

61、结到较高的总体层次上，从而实现对原始基本数据的总体把握。最简单的数据总结方法是利用统计学中的传统方法，计算出数据库中各个数据项的总和、平均、方差、最大值、最小值等基本描述统计量。或者通过利用统计图形工具，对数据制作直方图、饼状图等。利用OLAP(On Line Processing)技术（即联机分析处理技术）实现数据的多维查询也是一种广泛使用的数据总结的方法。5.2 5.2 数据挖掘任务数据挖掘任务5.2.2 5.2.2 分类分类分类的主要功能是使用一个分类函数或分类模型（也常常称作分类器），该模型能够根据数据的属性将数据分派到不同的组中。即：分析数据的各种属性，并找出数据的属性模型，确定

62、哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据，并预测新数据将属于哪一个组。分类应用的实例很多。例如，我们可以将银行网点分为好、一般和较差三种类型，并依此分析这三种类型银行网点的各种属性，特别是位置、盈利情况等属性，并决定它们分类的关键属性及相互间关系。此后就可以根据这些关键属性对每一个预期的银行网点进行分析，以便决定预期银行网点属于哪一种类型。5.2.3 5.2.3 关系分析关系分析关联分析的目的是找出数据库中隐藏的关联网，描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数，即便知道也是不确定的，因此关联分析生成的规则带有置信度，置信度级别度

63、量了关联规则的强度。5.2.45.2.4 聚类聚类当要分析的数据缺乏描述信息，或者是无法组织成任何分类模式时，可以采用聚类分析。聚类分析是按照某种相近程度度量方法，将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近，不同集合之间的数据性质相差较大。统计方法中的聚类分析是实现聚类的一种手段，它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别。5.3.1 5.3.1 业务理解业务理解（1）确定业务目标（2）形式评估

64、（3）确定数据挖掘目标（4）制订项目实施计划5.3 数据挖掘流程数据挖掘流程5.3.2 5.3.2 数据数据理解理解（1）数据的初步收集（2）数据描述（3）数据的探索性分析（4）数据质量检验5.3.3 5.3.3 数据数据准备准备（1）选择数据（2）数据清洗（3）数据构建（4）数据融合（5）数据格式化5.3.4 5.3.4 建立建立模型模型（1）选择建模技术（2）生成模型（3）建立模型（4）评估模型5.3.5 5.3.5 结果评价结果评价在大多数情况下，数据挖掘模型应该有助于决策。因此，要对这种模型进行说明以使模型有用，因为人们不会在复杂的“黑箱模型”的基础上作决策。注意，模型准确性的目标和

65、模型说明的准确性的目标有点互相矛盾。一般来说，简单的模型容易说明，但是其准确性就差一些。5.4 5.4 数据挖掘的常用方法数据挖掘的常用方法数据挖掘方法是由人工智能、机器学习的方法发展而来，结合传统的统计分析方法、模糊数学以及科学计算可视化技术，以数据库为研究对象，形成的数据挖掘的方法和技术。数据挖掘常用的技术可以分为六大类：归纳学习方法、仿生物技术、公式发现、统计分析方法、模糊数学方法、可视化技术。5.4.1 5.4.1 决策树决策树决策树起源于概念学习系统CLS (Concept Learning System)。决策树方法就是利用信息论的原理建立决策树。该类方法的实用效果好,影响较大

66、。决策树可高度自动化地建立起易于为用户所理解的模型,而且,系统具有较好地处理缺省数据及带有噪声数据等能力。1、决策树表示法决策树是一树状结构,它从根节点开始,对数据样本(由实例集组成,实例有若干属性)进行测试,根据不同的结果将数据样本划分成不同的数据样本子集,每个数据样本子集构成一子节点。生成的决策树每个叶节点对应一个分类。构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知类别的记录的类别。这种具有预测功能的系统叫决策树分类器。2、决策树构造思想构造一个决策树分类器通常分为两步：树的生成和剪枝。决策树的生成是一个从上至下，“分而治之”(Divide-And-Conquer)的过程，是

67、一个递归的过程。设数据样本集为S，算法框架如下： (1)如果数据样本集S中所有样本都属于同一类或者满足其它终止准则，则S不再划分，形成叶节点。 (2)否则，根据某种策略选择一个属性，按照属性的各个取值，对S进行划分，得到n个子样本集，记为。再对每个迭代执行步骤1经过n次递归，最后生成决策树。从根到叶结点的一条路径就对应着一条规则，整棵决策树就对应着一组析取表达式规则。树构成步骤中，主要就是找出节点的属性和如何对属性值进行划分。3、决策树方法特点决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的

68、数据处理。5.4.2 5.4.2 遗传算法遗传算法遗传算法是由美国Michigan大学的Holland教授于1969年提出,后经DeJong、Goldberg等人归纳总结所形成的一类模拟进化算法。它来源于达尔文的进化论、魏茨曼的物种选择学说和孟德尔的群体遗传学说。它适合于无表达或有表达的任何类函数，具有可实现的并行计算行为；它能解决任何种类实际问题，具有广泛的应用价值。1、遗传算法特点(1)遗传算法从问题解的中集开始嫂索，而不是从单个解开始。(2)遗传算法求解时使用特定问题的信息极少，容易形成通用算法程序。(3)遗传算法有极强的容错能力(4)遗传算法中的选择、交叉和变异都是这说明遗传算法是采用

69、随机方法进行最优解搜索，选择体现了向最优解迫近，交叉体现了最优解的产生，变异体现了全局最优解的覆盖。(5)遗传算法具有隐含的并行性。2、遗传算法流程（1）选择一个初始的人口（2）确定每个个体的适应度（3）执行选择（4）重复（5）执行交叉（6）执行突变（7）确定每个个体的适应度（8）执行选择直到停止准则应用遗传算法处理流程3、遗传算法优缺点遗传是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其他模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构，在不增加错误率的前

70、提下，删除多余的连接和隐层单元；用遗传算法和BP算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法比较复杂，收敛于局部极小的较早收敛问题尚未解决。5.4.3 5.4.3 神经网络神经网络神经网络是以重复学习的方法，将一串例子交与学习，使其归纳出足以区分的样式。如果面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结果，这属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。1、神经网路概述在许多数据挖掘和决策支持应用中，由于有公认的轨迹记录，人工神经网络已经成为一种普遍采用的方法。神经网络是一种可以容易的应用于预测、分类和聚

71、类的强有力工具。最有力的神经网络是生物所具有的神经网络，与此相对应的是，计算机通常善于反复的执行明确的指令。通过在计算机上模拟人脑的神经联系，桥接计算机与人脑的隔阂，是人工神经网络的关键。神经网络从数据中概括和学习的能力，是模仿我们从经验中学习的能力，这种能力对数据挖掘是有用的。2、神经网络方法的特点神经网络具有良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性，非常适合解决数据挖掘的问题，用于分类、预测和模式识别的前馈式神经网络模型；以Hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以Art模型、Koholon模型为代表的，用于聚类

72、的自组织映射方法。神经网络的缺点是“黑箱性”人们难以理解网络的学习和决策过程。5.4.4 5.4.4 关联规则关联规则关联规则是数据挖掘领域中的一个非常重要的研究课题，广泛应用于各个领域，既可以检验行业内长期形成的知识模式，也能够发现隐藏的新规律。有效地发现、理解、运用关联规则是完成数据挖掘任务的重要手段，因此对关联规则的研究具有重要的理论价值和现实意义。5.4.5 5.4.5 粗糙集粗糙集粗糙集是数据挖掘的方法之一，它是处理模糊和不确定知识的一种数学工具.粗糙集处理的对象是类似二维关系表的信息表，目前成熟的关系数据库管理系统和数据仓库管理系统，为基于粗糙集的数据挖掘奠定了坚实的基础.由于

73、粗糙集的优点及其客观性，现在粗糙集己被国内外的研究者所重视，并广泛应用于数据挖掘、模式识别等领域.1、粗糙集理论粗糙集合和普通集合的概念有本质的区别，粗糙集中的成员关系、集合的等价关系都与集合的不可区分关系表达的论域知识有关，一个元素是否属于一个集合不时有其客观性决定的，而是取决于人们的知识。所以粗糙集的特性都不是绝对的，与我们对事物的了解程度有关。从某种意义上来讲，粗糙集方法可以被看作对经典集合理论的拓展。2、粗糙集方法特点粗糙集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗糙集处理的对象是类似二维关系表的信息表。但粗糙集的数学基础是集合论，难以直接

74、处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗糙集理论实用化的难点。5.4.6 5.4.6 判别分析判别分析当所遭遇问题它的因变量为定性，而自变量（预测变量）为定量时，判别分析为一非常适当的技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体判别分析；若由多个群体构成，则称之为多元判别分析。1、判别分析的基本思想有时我们会遇到包含属性被解释变量和几个度量解释变量的问题，这时需选择合适的分析方法。而当被解释变量是属性变量而解释变量是度量变量时，判别分析是合适的统计分析方法。判别分析是多元统计分析中用于判别样本所属类型的一种统计分析方法

75、。在现实世界中，经常会遇到需要判别的问题。2、判别分析的分类判别分析按判别的组数来分，有两组判别分析和多组判别分析；按区分不同总体所用的数学模型来分，有线性判别和非线性判别；按判别对所处理的变量方法不同，有逐步判别、序贯判别等；按判别准则不同，有距离判别、贝叶斯判别（Bayes）、费歇（Fisher）判别等。谢谢！第第6 6章章大数据可视化大数据可视化本章内容本章内容6.1 数据可视化分类6.1.1 结构可视化6.1.2 功能可视化6.1.3 关联关系可视化6.1.4 趋势可视化6.2 可视化表现形式6.2.1 二维可视化形式6.2.2 三维可视化形式6.2.3 仪表盘6.2.4

76、定制可视化形式6.2.5 大数据可视化方式的选择6.3 大数据可视化实验分析数据可视化是关于图形或图形格式的数据展示，它能够帮助人们快速地理解数据。其目的是利用计算机自动分析能力，挖掘人对可视化信息的认知能力优势，洞悉套数背后的信息、知识与智慧。6.1 6.1 大数据可视化分类大数据可视化分类一幅图画最伟大的价值莫过于它能够使我们实际看到的比我们期望看到的内容丰富得多！借助于可视化手段，清晰有效地传达与沟通信息维基百科6.1.1 6.1.1 结构可视化结构可视化结构可视化反映数据的内在组织结构，比如构成数据的元素、部件以及构成关系等。生物蛋白质结构图生物蛋白质结构图6.1.2 6.1.2 功能

77、可视化功能可视化功能可视化是对数据所对应的功能的可视化描述，如汽车发动机的运转状态，可通过对发动机进行3D建模，形成一段动画来清晰地展示。生物蛋白质结构图iPhone信息图iPhone信息图6.1.3 6.1.3 关联关系可视化关联关系可视化关联关系可视化在很大程度上都是反映数据之间的关联关系，比如层级关系、对比关系之类的社交图谱。生物蛋白质结构图互联网星球图6.1.4 6.1.4 趋势可视化趋势可视化趋势可视化是对数据发展的走势、预测等进行可视化的一种方式。谷歌流感趋势6.2 6.2 大数据可视化表现形式大数据可视化表现形式6.2.1 二维可视化形式6.2.2 三维可视化形式6.2.3

78、仪表盘6.2.4 定制可视化形式6.2.5 大数据可视化方式的选择6.2.16.2.1二维可视化形式二维可视化形式二维可视化的表现形式以平面的形式表达数据之间的关联。主要包括2D区域图、时间序列图、网络图等。二维可视化二维可视化2D2D区域图区域图 2D区域图方法使用GIS数据可视化技术，往往涉及到事物特定表面上的位置。某地支柱产业类型及产值情况二维可视化二维可视化时间序列图时间序列图时间序列图是数据以时间轴的方式展示，例如展示某区域的温度变化。某地日均温度及与长期平滑指数差分图二维可视化二维可视化网络图网络图网络图展示数据点之间的错综复杂的相互关系,它是一种常见的大数据展示方法。

79、奥斯卡获奖电影网络图6.2.2 6.2.2 三维可视化三维可视化3D3D渲染技术渲染技术 3D渲染技术是近年来发展迅速和备受关注的行业，在数字娱乐、虚拟现实、工业设计、实时仿真、数字城市等各个领域都有着十分广泛的应用。某电厂3D渲染图三维可视化三维可视化体感互动技术体感互动技术体感互动技术是通过硬件互动设备、体感互动系统软件以及三维数字内容，来感应站在窗口前的观看者，当观看者的动作发生变化时，窗口显示的画面同时发生变化。体感互动技术三维可视化三维可视化增强现实技术增强现实技术增强现实是把原本在现实世界很难体验到的实体信息，通过电脑模拟仿真后再叠加，将虚拟的信息应用到真实世界，被人类感官

80、所感知，从而达到超越现实的感官体验。增强现实技术6.2.3 6.2.3 仪表盘仪表盘仪表盘是模仿汽车速度表的一种图表，常用来反映预算完成率、收入增长率等比率性指标。如某公司想要看各地区销售的完成率，将数据导入到大数据分析工具“魔镜”中，选择某一地区查看销售任务的完成率，得到如下仪表盘。驾驶舱仪表盘6.2.4 6.2.4 定制可视化定制可视化针对于不同企业和用户的需求，“魔镜”提供了多个增值和定制化模块，包括可定制化图表支持，跨数据库、数据源支持，行业数据分析（项目），可定制视化分析组合，定制化分析挖掘模型和解决方案等。江苏移动赛特斯系统告警分布诺贝尔奖项地域分布图6.2.5 6.2.5 大

81、数据可视化方式的选择大数据可视化方式的选择单一数据可视化在展现数据的时候，有时我们只需要突出一个最重要的数据。我们需要直接将这个数据放大或通过简单的颜色对比反映数据。单一数据展示6.2.5 6.2.5 大数据可视化方式的选择大数据可视化方式的选择对比型数据的展示在对比型数据表示过程中，一般通用的图表就是条形图或柱形图，长长短短一目了然。对比型数据展示6.2.5 6.2.5 大数据可视化方式的选择大数据可视化方式的选择比例型数据的展示对于比例型数据的图表展示，我们一般会选择饼图或圆环图显示。比例型数据展示6.2.5 6.2.5 大数据可视化方式的选择大数据可视化方式的选择相关关系数据的展

82、示如果不清楚两个变量之间的关系，散点图是一个不错的选择。相关关系数据展示6.2.5 6.2.5 大数据可视化方式的选择大数据可视化方式的选择复合关系数据可视化有的时候数据包含的信息太多太杂，单一的图表并不能够全面地传递信息。此时，就可以选择复合图表。复合关系数据展示谢谢！第第7 7章章大数据的安全性大数据的安全性本章内容本章内容7.1 大数据的安全7.2 数据防护技术7.3 大数据安全实验分析7.1 7.1 大数据的安全大数据的安全大数据应用在创造价值的同时，也面临着复杂严峻的安全挑战，如大数据的产生使数据分析与应用更加复杂，难以管理。数据的安全分为：物理安全网络安全应用安全数

83、据隐私 7.1.1 7.1.1 物理安全物理安全物理安全是指为了保证计算机系统安全、可靠地运行，确保数据不会受到人为或自然因素的危害而使造成丢失、泄漏和破坏，对计算机系统设备、通信与网络设备、存储媒体设备和人员所采取的安全技术措施。 7.1.1 7.1.1 物理安全物理安全在大数据安全中，物理安全是基础，如果物理安全得不到保证，那么其他的一切安全措施就都是空中楼阁。物理安全包括环境安全，设备安全和媒体安全三个方面。7.1.1 7.1.1 物理安全环境安全物理安全环境安全环境安全是对系统所在环境的安全保护，如受灾防护和区域防护等。受灾防护：保护计算机数据免受水、火、有害气体、地震、雷击和静电的

84、危害。区域防护：对特定区域边界实施提供某种形式的保护和隔离，来达到保护区域内容系统安全性的目的。7.1.1 物理安全物理安全设备安全设备安全设备安全包括设备防盗、设备防毁、防止电磁信息泄露、防止线路截获、抗电磁干扰、电源保护等。7.1.1 7.1.1 物理安全设备安全物理安全设备安全1 1设备防盗设备防盗2 2设备防毁设备防毁移动报警器，数字探测报警和部件上锁7.1.1 7.1.1 物理安全设备安全物理安全设备安全1 1设备防盗设备防盗2 2设备防毁设备防毁1.对抗自然力的破坏2.对抗人为的破坏7.1.1 7.1.1 物理安全设备安全物理安全设备安全3.防止电磁泄漏电子隐蔽技术l干扰l跳频物理

85、抑制技术 l包容l抑源7.1.1 7.1.1 物理安全媒体安全物理安全媒体安全媒体安全包括媒体本身的安全及媒体数据的安全。媒体本身的安全保护：指防盗（如数据被非法拷贝）、防毁（如防止意外或者故意的破坏）、防霉等媒体数据的安全保护：指防止记录的信息不被非法窃取、篡改、破坏或使用。7.1.2 7.1.2 网络安全网络安全信息时代，大数据平台承载了巨大数据资源，必然成为黑客组织、各类敌对势力网络攻击的重要目标。因此，大数据时代的网络安全问题，将是所有大数据利用的前提条件。7.1.2 7.1.2 网络安全网络安全网络安全要保证信息内容的安全：避免信息遭受破坏或泄露禁止非法用户在没有授权的情况下

86、对系统进行访问避免系统中的数据被破译或盗取，从而给用户留下安全隐患对系统、软件做好实时监控 7.1.3 7.1.3 应用安全应用安全大数据在各行各业得到了广泛的应用，但不同领域的应用对大数据安全需求也有所不同。互联网行业电信行业金融行业医疗行业政府组织7.1.3 7.1.3 应用安全应用安全互联网行业互联网企业的大数据安全需求是：可靠的数据存储、安全的挖掘分析、严格的运营监管，呼唤针对用户隐私的安全保护标准、法律法规、行业规范，期待从海量数据中合理发现和发掘商业机会和商业价值。7.1.3 7.1.3 应用安全应用安全电信行业电信运营商的大数据安全需求是：确保核心数据与资源的保密性、完

87、整性和可用性。在保障用户利益、体验和隐私的基础上充分发挥数据价值。7.1.3 7.1.3 应用安全应用安全金融行业金融行业的大数据安全需求是：对数据访问控制、处理算法、网络安全、数据管理和应用等方面提出安全要求，期望利用大数据安全技术加强金融机构的内部控制，提高金融监管和服务水平，防范和化解金融风险。7.1.3 7.1.3 应用安全应用安全医疗行业医疗行业对大数据安全的需求是：数据隐私性高于安全性和机密性，同时需要安全和可靠的数据存储、完善的数据备份和管理，以帮助医生与病人进行疾病诊断、药物开发、管理决策、完善医院服务，提高病人满意度，降低病人流失率。7.1.3 7.1.3 应用安全应用安

88、全政府组织政府组织对大数据安全的需求是：隐私保护的安全监管、网络环境的安全感知、大数据安全标准的制定、安全管理机制的规范等内容。7.1.4 7.1.4 数据隐私数据隐私大数据在各行各业得到了广泛的应用，但不同领域的应用对大数据安全需求也有所不同。大数据的汇集加大了隐私数据信息泄露的风险。由于数据包含大量用户信息，易侵犯公民的隐私。大数据呈现动态特征，表现形式多变，基于静态数据的隐私保护不适用7.2 7.2 数据防护技术数据防护技术7.2.1 镜像技术7.2.2 快照技术7.2.3 持续数据保护7.2.4 用户管理技术 7.2.1 7.2.1 镜像技术镜像技术镜像技术是将建立在同一个局域

89、网之上的两台服务器通过软件或其他特殊的网络设备，将两台服务器的磁盘做镜像。 7.2.2 7.2.2 快照技术快照技术快照技术是一种摄影技术，随着存储应用需求的提高，用户需要在线方式进行数据保护，快照就是在线存储设备防范数据丢失的有效方法之一。存储快照分为两类：即写即拷快照和分割镜像快照。 7.2.3 7.2.3 持续数据保护技术持续数据保护技术持续数据保护（CDP）是一种在不影响主要数据运行的前提下，可以实现持续捕捉或跟踪目标数据所发生的任何改变，并且能够恢复到此前任意时间点的方法。 7.2.4 7.2.4 用户管理技术用户管理技术用户管理涉及到两个重要的问题：用户身份管理和用户权限管理。身份管理为身份认证服务，只有身份管理，没有身份认证，那么身份管理是毫无意义的。权限管理为访问控制服务，只有权限管理没有访问控制，则权限管理也是没有意义的。 7.2.4 7.2.4 用户管理技术用户管理技术身份认证方式：静态密码方式；动态口令认证；USB Key认证；生物识别技术。身份认证系统的组成包括：认证服务器、认证系统客户端和认证设备。 7.2.4 7.2.4 用户管理技术用户管理技术访问控制：指系统对用户身份及其所属的预先定义的策略组限制其使用数据资源能力的手段。访问控制的内容包括认证、控制策略实现和安全审计。谢谢！

展开阅读全文

大数据分析及应用实践全书课件汇总整本书电子教案最新

最新文档