《hadoop应用开发实战21yarn支持的计算框架11》由会员分享,可在线阅读,更多相关《hadoop应用开发实战21yarn支持的计算框架11(10页珍藏版)》请在金锄头文库上搜索。
1、Hadoop大数据解决方案大数据解决方案进阶应用用HadoopYARN支持的计算框架支持的计算框架(11)1qSparkStandalone模式部署qSpark的YARN模式部署qMapReduce编程模型课程目标课程目标2测试测试SparkSpark集群集群q运行SparkPi$cd/home/hadoop/spark/bin$./run-exampleorg.apache.spark.examples.SparkPispark:/192.168.136.101:70773测试测试SparkSpark集群集群q测试spark-shellspark-shell是一个sparkapplicati
2、on,运行时需要向资源管理器申请资源$MASTER=spark:/192.168.136.101:7077spark-shellq停止集群$SPARK_HOME/spark/sbin/stop-all.sh4关于关于Spark Standalone ModeSpark Standalone Mode的运行的运行q资源调度SparkStandaloneCluster目前只支持FIFO方式调度,不过,允许多个并发用户q监控和日志通过WebUI来监控集群日志:$SPARK_HOME/spark/logsq和Hadoop并用Spark可以作为独立的服务,在已有的Hadoop集群设备上并行,并通过hdf
3、s:/URL存取Hadoop数据5SparkSpark的的YARNYARN模式部署模式部署q要运行在YARN上,需要用SBT(ScalaBuildTool)编译官方提供的二进制安装文件,生成YARNclient端使用的jar包在$SPARK_HOME目录下执行编译$SPARK_HADOOP_VERSION=2.2.0SPARK_YARN=true./sbt/sbtassemblyq在YARN环境下运行启动Hadoop2.2.0集群确保环境变量HADOOP_CONF_DIR或YARN_CONF_DIR已经设置在YARN集群中运行Spark应用程序的命令:6SparkSpark的的YARNYARN模式部署模式部署q要运行在YARN上:7MapReduceMapReduce编程模型编程模型qMapReduce将整个运行过程分为两个阶段:Map阶段和Reduce阶段qMap阶段由一定数量的MapTask组成输入数据格式解析:InputFormat输入数据处理:Mapper数据分组:PartitionerqReduce阶段由一定数量的ReduceTask组成数据远程拷贝数据按照key排序数据处理:Reducer数据输出格式:OutputFormat8MapReduceMapReduce编程模型编程模型9欢迎访问我们的官方网站10