智云大数据云计算信息化实验室解决

资源描述

《智云大数据云计算信息化实验室解决》由会员分享，可在线阅读，更多相关《智云大数据云计算信息化实验室解决（63页珍藏版）》请在金锄头文库上搜索。

1、智云大数据云信息化实验室解决,个人简介,11:33,2,移动互联/物联网时代的云浪潮,移动互联/物联网时代的云浪潮,目录,11:33,3,虚拟化技术及平台管理,大数据仓库、分析和挖掘,物联网海量信息分析处理,智云大数据云信息化教学平台,云计算,啥是云计算？据说是IT的一种高大上的东西。云计算遥不可及？No，它已经悄然进入到我们生活中的方方面面。,11:33,4,身边的云计算,11:33,5,云盘,云输入法,云购物,云搜索,云服务器,云办公,2014：移动互联网/物联网云,2014物联网大会：大数据物联网时代，大数据时代是物联网的延伸; 云计算被称为是继大型计算机、个人计算机、互联网之后的第

2、四次IT产业革命,是新一代互联网、物联网和移动互联网的引擎和神经中枢； 2014年，物联网与移动互联网的研究已经从应用层转移到了中间件云计算大数据层面。,11:33,6,云计算运维模型,11:33,7,云计算核心技术,11:33,8,虚拟化技术,云平台管理,服务器集群,分布式架构,分布式大数据,编程模式,服务集群/虚拟化/平台部署管理,分布式大数据/数据仓库/数据分析挖掘,云计算学习内容,11:33,9,云计算认知,云平台部署,大数据计算,云计算基本理论主流云计算应用虚拟化技术认知分布式计算认知集群服务器认知,虚拟化技术 KVM/Xen/VMware部署与使用 CloudStack云

3、计算平台部署与使用，构建服务器集群,大数据Hadoop系统 HDFS/MapReduce编程 HBase/Hive数据库开发 Mahout数据挖掘物联网大数据中间件,虚拟化技术及平台管理,虚拟化技术及平台管理,移动互联/物联网时代的云浪潮,目录,11:33,10,大数据仓库、分析和挖掘,物联网海量信息分析处理,智云大数据云信息化教学平台,云虚拟化技术,虚拟化（平台虚拟化技术）：通过使用控制程序（Hypervisor），隐藏特定计算平台的实际物理特性，为用户提供抽象的、统一的、模拟的计算环境（虚拟机）。虚拟化一般包含以下几个方面：虚拟的内容是资源（包括CPU、内存、存储、网络等）；被虚拟

4、的物理资源有着统一的逻辑表示，而且这种逻辑表示提供给用户大部分相同或完全相同的物理资源的功能；经过一系列的虚拟化过程，使得资源不受物理限制约束，由此可以带给我们与传统IT相比更多的优势资源整合、提高资源利用率、动态IT等。虚拟化即是对资源的逻辑抽象、隔离、再分配、管理的一个过程。,11:33,11,为什么要虚拟化,11:33,12,服务器整合技术：完成集群服务器的资源整合；克隆技术：对大量同等计算的节点进行方便快速的克隆；动态迁移技术；虚拟快照/灾难恢复；方便自动化管理与使用；增强安全性；提高效率降低成本。,虚拟化应用架构,11:33,13,传统架构,虚拟化架构,将一台服务器当

5、做N台服务器来使用,硬件层,应用程序,操作系统,常用虚拟化产品,11:33,14,KVM虚拟化,虚拟化核心： KVM QEMU 管理工具： libvirt virt-manager,11:33,15,Xen虚拟化,虚拟机管理工具： XenCenter,11:33,16,VMware虚拟化,虚拟化解决： vSphere vSphere核心组件： VMware ESXi 虚拟机管理工具： VMware vCenter Server VMware vSphere Client Web Client,11:33,17,云自动化管理服务 IaaS,有了虚拟化基础设施，实际运营将通过自动化的技术解决来提供

6、全方位的IaaS服务,11:33,18,IaaS,Infrastructure,as a Service,CloudStack,CloudStack是一个云平台管理的项目，旨在为公共及私有云的建设与管理提供软件的开源项目，往往作为作为基础设施即服务（简称IaaS）资源的通用前端。 CloudStack形成的基础设施云和数据中心运营商可以快速，轻松地建立在其现有的基础设施提供云服务的需求，弹性云计算服务。 CloudStack用户可以充分利用云计算提供更高的效率，无限的规模和更快地部署新服务和系统的最终用户。,11:33,19,CloudStack主要功能,通过CloudStack可以实现：通

7、过配置、整合一系列软、硬件设备为客户构建计算、存储资源池以及相应服务平台，使用户可以按需、弹性获取计算及存储资源。通过云平台管理系统对整个云计算平台进行集中管理，实现对云平台的软、硬件资源进行统一分配和管理。构建虚拟服务器，部署各种业务系统，通过云平台能对应用系统计算资源的动态调配。虚拟机快照管理，批量复制虚拟节点，系统备份及灾难恢复。远程对虚拟机进行操作。,11:33,20,CloudStack产品组件框架,11:33,21,CloudStack产品部署,11:33,22,课程设计及实验目录,11:33,23,CloudStack管理面板,11:33,24,移动互联/物联网时代的云浪

8、潮,目录,11:33,25,虚拟化技术及平台管理,大数据仓库、分析和挖掘,物联网海量信息分析处理,智云大数据云信息化教学平台,大数据仓库、分析和挖掘,云计算与大数据,云计算的模式是业务模式，本质是数据处理技术。数据是资产，云为数据资产提供存储、访问和计算。当前云计算更偏重海量存储和计算，以及提供的云服务，运行云应用，但是缺乏盘活数据资产的能力，挖掘价值性信息和预测性分析，为国家、企业、个人提供决策和服务，是大数据核心议题，也是云计算的最终方向。,11:33,26,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,大数据的定义,IDC定义：为了更为经济的从高频率获取的、大容量的

9、、不同结构和类型的数据中获取价值，而设计的新一代架构和技术。,11:33,27,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低（Value）”就是“大数据”的显著特征，或者说，只有具备这些特点的数据，才是大数据。,大数据分析的核心技术,11:33,28,分析技术：数据处理：自然语言处理技术统计和分析：A/B test/top N排行榜/地域占比/文本情感分析数据挖掘：关联规则分析/分类/聚类模型预测：预测模型/机器学习/建模仿真,存储结构化数据：海量数据查询、统计、更新等操作效率低非结构化数据：图片、视频、word、pdf、ppt等文

10、件存储不利于检索、查询和存储半结构化数据转换为结构化存储按照非结构化存储,解决： Hadoop（MapReduce技术）,数据采集,数据储存,数据管理,数据分析与挖掘,大数据技术：数据采集：ETL工具数据存取：关系数据库/NoSQL/SQL等基础架构支持：云存储/分布式文件系统计算结果展现：云计算/标签云/关系图等,Apache Hadoop,Hadoop是一个分布式系统基础架构，由Apache基金会开发。 Apache Hadoop 是基于java语言实现的软件框架，在由大量计算机组成的集群中运行海量数据的分布式计算，它可以让应用程序支持上千个节点和PB级别的数据。 Hado

11、op是项目的总称，主要是由分布式存储（HDFS）、分布式计算（MapReduce）等组成。,11:33,29,Hadoop体系架构,11:33,30,Pig是一个大规模数据分析平台，Pig为复杂海量数据并行计算提供简易的操作和编程接口 Sqoop是一个Hadoop（Hive/HDFS/HBase）和关系型数据库的数据相互迁移的工具 Hive工具提供完整的sql查询功能，可以将sql语句转换MapReduce任务进行运行 ZooKeeper：一个分布式的、高可用性的协调服务 HBase是一个开源的，基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点，并且设计用来部署

12、在低廉的硬件上，适合那些有着超大数据集的应用程序 MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算,HDFS - 分布式文件系统,HDFS是一个高度容错性的分布式文件系统，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。,11:33,31,NameNode 可以看作是分布式文件系统中的管理者，存储文件系统的meta-data，主要负责管理文件系统的命名空间，集群配置信息，存储块的复制。 DataNode 文件存储的基本单元。它存储文件块在本地文件系统中，保存了文件块的meta-data，同时周期性的发送所有存在的文件块的报告给NameNode。 Client

13、获取分布式文件系统文件的应用程序。,MapReduce - 映射、化简编程模型,MapReduce是一种编程模型，用于大规模数据集的并行运算。Map（映射）和Reduce（化简），采用分而治之思想，先把任务分发到集群多个节点上，并行计算，然后再把计算结果合并，从而得到最终计算结果。多节点计算，所涉及的任务调度、负载均衡、容错处理等，都由MapReduce框架完成，不需要编程人员关心这些内容。,11:33,32,Map负责将job分解成多个任务；Reduce负责把分解后多任务的处理结果合并起来。 Hadoop将HDFS输入数据分成固定大小的块，我们称之为Input Split。 Split中的数

14、据作为Map的输入，每个split对于一个map线程，多个Map线程组成一个Map Task ； Split分片数据由多个Map Task处理之后，经过排序、合并输出处理结果； Reduce 将Map Task的输出结果作为其输入，通过多个Reduce Task并行处理，合并Map Task的输出结果作为整个Job的输出。,MapReduce编程IDE插件,11:33,33,HBase - 分布式数据存储,HBase Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统； HBase位于结构化存储层，HDFS为HBase提供高可靠性的底层存储支持，MapRed

15、uce为HBase提供了高性能的计算能力，Zookeeper为HBase提供了稳定服务和故障恢复机制； Pig和Hive还为HBase提供了高层语言支持，使得在HBase上进行数据统计处理变的简单。,11:33,34,Hive - 数据仓库工具,Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析,11:33,35,可扩展 Hive可以

16、自由的扩展集群的规模，一般情况下不需要重启服务延展性 Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数容错良好的容错性，节点出现问题SQL仍可完成执行,Pig - 数据流分析工具,Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-like语言叫Pig Latin，该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。,11:33,36,支持嵌套 Pig提供了更加丰富的数据结构，支持值和嵌套的数据结构。可扩展 Pig 被设计为可以扩展的，处理路径上的每一个部分，都是可以使用用户定义函数（UDF ）进行修改。可重用用户自定义函数 UDF比MapReducer程序开发的库更易于重用。,Mahout - 数据挖掘机器学习类库,Mahout 是一套具有可扩充能力的机器学习类库。它提供机器学习框架的同时，还实现了一些可扩展的机器学习领域经典算法的实现，可以帮助开发人员更加方便快捷地创建智能应用程序。通过和 Apache Hadoop 分布式框架相结合，Mahout 可以有效地使用分布式系统来实现高性能计算。,

展开阅读全文