《大数据与分布式计算(PPT65页)13905》由会员分享,可在线阅读,更多相关《大数据与分布式计算(PPT65页)13905(65页珍藏版)》请在金锄头文库上搜索。
1、大数据与分布式计算HDFSHadoopDistributedFileSystem1990年,一个普通的硬盘驱动器可存储1370MB的数据并拥有4.4MB/s的传输速度 ,所以,只需五分钟的时间就可以读取整个磁盘的数据。20年过去了,1TB级别的磁盘驱动器是很正常的,但是数据传输的速度却在100MB/s左右。所以它需要花两个半小时以上的时间读取整个驱动器的数据。 从一个驱动器上读取所有的数据需要很长的时间,写甚至更慢。 如何解决?磁盘损坏数据丢失怎么办?如果需要存储计算1000T数据怎么办?常用RAID技术RAID类类型型访问访问速度速度数据可靠性数据可靠性磁磁盘盘利用率利用率RAID0很快很低
2、100%RAID1很慢很高50%RAID10中等很高50%RAID5较快较高(N-1)/NRAID6较快较(RAID5)高(N-2)/NHDFS系统架构什么是HDFS?Hadoop Distributed File SystemHadoopDistributedFileSystem(HDFS)istheprimarystoragesystemusedbyHadoopapplications.HDFScreatesmultiple replicas ofdatablocksanddistributesthemoncomputenodesthroughoutaclustertoenablereli
3、able,extremelyrapidcomputations.HDFS设计目标HDFS以流式数据访问模式存储超大文件,运行于商用硬件集群上。超大文件超大文件流式数据流式数据访问访问一次写入多次读取商用硬件商用硬件不适合HDFS的场景低延低延迟迟的数据的数据访问访问大量小文件大量小文件超过NameNode的处理能力多用多用户户任意写入修改文件任意写入修改文件HDFS为了做到可靠性(reliability)创建了多份数据块(data blocks)的复制(replicas),并将它们放置在服务器群的计算节点中(compute nodes),MapReduce就可以在它们所在的节点上处理这些数据了
4、。设计目标假设:节点失效是常态理想:1.任何一个节点失效,不影响HDFS服务2.HDFS可以自动完成副本的复制HDFS主要组件的功能NameNodeDataNode存储元数据 存储文件内容元数据保存在内存中文件内容保存在磁盘 保存文件,block,datanode之间的映射关系维护了blockid到datanode本地文件的映射关系文件文件切分成块(默认大小64M),以块为单位,每个块有多个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文件名,文件目录结构,文件属性(生成时间,副本数,文件权限),以及每个文件的块列表以及块所在的DataN
5、ode等等DataNode在本地文件系统存储文件块数据,以及块数据的校验和可以创建、删除、移动或重命名文件,当文件创建、写入和关闭之后不能修改文件内容。分而治之(DivideandConquer)分而治之(DivideandConquer)分而治之(DivideandConquer)MapReduceMapReduce:大规模数据处理处理海量数据(1TB)上百/上千CPU实现并行处理简单地实现以上目的移移动计动计算比移算比移动动数据更划算数据更划算分而治之(DivideandConquer)MapReduce特性自动实现分布式并行计算容错提供状态监控工具模型抽象简洁,程序员易用MapReduc
6、e它由称为map和reduce的两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务,然后再对结果进行归并。WordCountMapReduceMapReduce物理上MapReduceHiveSQLSub-queriesinfromclauseEqui-joinsInnerLeft,Right,fullOuterMulti-tableInsertMulti-group-byExtensibilityPluggableMap-reducescriptsPluggableUserDefinedFunctionsPluggableUserDefinedTypes
7、Complexobjecttypes:ListofMapsPluggableDataFormatsApacheLogFormatColumnarStorageFormatHiveQLJoinINSERT OVERWRITE TABLE pv_usersSELECT pv.pageid, u.ageFROM page_view pvJOIN user uON (pv.userid = u.userid);HiveQLJoininMapReducekeyvalue111111222pageid useridtime11119:08:0121119:08:1312229:08:14useridage
8、gender11125female22232malepage_viewuserpv_userskeyvalue111222Mapkeyvalue111111111keyvalue222222ShuffleSortPageidage125225pageidage132Reduce了解Hive的意义 Hive是一个很方便的工具,一般的业务人员就可以很快上手。 M/R任务的数量控制着语句的执行时间。 如何减少M/R的任务数量? 在写HQL时我们能做什么? Hive如何把HQL转化为M/Rjob。 Hive在转化过程中做了哪些优化。DriverCompilerHadoopHive架构ClientMet
9、astoreDriverCompilerHadoopHive执行流程 操作符(Operator)是Hive的最小处理单元 每个操作符处理代表HDFS操作或MR作业 编译器把HiveSQL转换成一组操作符ClientMetastoreHive操作符操作符TableScanOperatorReduceSinkOperatorJoinOperatorSelectOperatorFileSinkOperatorFilterOperatorGroupByOperatorMapJoinOperatorLimitOperatorUnionOperator描述从表中读取数据生成到reduce端的结果数据Joi
10、n两份数据减少输出列生成结果,输出数据到文件过滤输入数据GroupBy分组操作MapJoinHint或者由优化器决定采用MapJoinLimit限制行数操作Union操作Hive执行流程 Hive通过ExecMapper和ExecReducer来执行MapReduce任务。 执行MapReduce时有两种模式本地模式分布式模式DriverCompilerHadoopClientMetastoreDriverCompilerHadoopHive编译器ClientMetastoreSparkSpark生态系统SparkSpark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了Map
11、Reduce的算子map函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供API。其底层采用Scala这种函数式语言书写而成,并且所提供的API深度借鉴Scala函数式的编程思想,提供与Scala类似的编程接口。Spark任务处理流程SparkSQLSparkSQL提供在大数据上的SQL查询功能,类似于Shark在整个生态系统的角色,它们可以统称为SQLonSpark。之前,Shark的查询编译和优化器依赖于Hiv
12、e,使得Shark不得不维护一套Hive分支,而SparkSQL使用Catalyst做查询解析和优化器,并在底层使用Spark作为执行引擎实现SQL的Operator。用户可以在Spark上直接书写SQL,相当于为Spark扩充了一套SQL算子,这无疑更加丰富了Spark的算子和功能,同时SparkSQL不断兼容不同的持久化存储(如HDFS、Hive等),为其发展奠定广阔的空间。SparkStreamingSparkStreaming通过将流数据按指定时间片累积为RDD,然后将每个RDD进行批处理,进而实现大规模的流数据处理。其吞吐量能够超越现有主流流处理框架Storm,并提供丰富的API用于
13、流数据计算。GraphXGraphX基于BSP模型,在Spark之上封装类似Pregel的接口,进行大规模同步全局的图计算,尤其是当用户进行多轮迭代时,基于Spark内存计算的优势尤为明显。TachyonTachyon是一个分布式内存文件系统,可以理解为内存中的HDFS。为了提供更高的性能,将数据存储剥离JavaHeap。用户可以基于Tachyon实现RDD或者文件的跨应用共享,并提供高容错机制,保证数据的可靠性。Spark架构Spark的基本组件。ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器
14、。Worker:从节点,负责控制计算节点,启动Executor或Driver。在YARN模式中为NodeManager,负责计算节点的控制。Driver:运行Application的main()函数并创建SparkContext。Executor:执行器,在workernode上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executors。SparkContext:整个应用的上下文,控制应用的生命周期。RDD:Spark的基本计算单元,一组RDD可形成执行的有向无环图RDDGraph。DAGScheduler:根据作业(Job)构建基于Stage的DAG,
15、并提交Stage给TaskScheduler。TaskScheduler:将任务(Task)分发给Executor执行。SparkEnv:线程级别的上下文,存储运行时的重要组件的引用。SparkEnv内创建并包含如下一些重要组件的引用。MapOutPutTracker:负责Shuffle元信息的存储。BroadcastManager:负责广播变量的控制与元信息的存储。BlockManager:负责存储管理、创建和查找块。MetricsSystem:监控运行时性能指标信息。SparkConf:负责存储配置信息。Spark运行逻辑在Spark应用中,整个执行流程在逻辑上会形成有向无环图(DAG)。Action算子触发之后,将所有累积的算子形成一个有向无环图,然后由调度器调度该图上的任务进行运算。Spark的调度方式与MapReduce有所不同。Spark根据RDD之间不同的依赖关系切分形成不同的阶段(Stage),一个阶段包含一系列函数执行流水线。知识回顾知识回顾Knowledge Knowledge ReviewReview