大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算

上传人:壹****1 文档编号:560893098 上传时间:2023-09-15 格式:DOCX 页数:2 大小:16.71KB
返回 下载 相关 举报
大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算_第1页
第1页 / 共2页
大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算》由会员分享,可在线阅读,更多相关《大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算(2页珍藏版)》请在金锄头文库上搜索。

1、大数据技术基础第三次平时作业第五章MapReduce与Spark分布式计算1.简述MapReduce工作原理答:工作原理:1)将大规模数据集分成若干个小数据片段。2)将每个小数据片段传给不同的计算节点。3)计算节点使用MaP函数对每个小数据片段进行处理,将每个数据片段转换成多个键值对。4)将输出的键值对按照键进行排序,以便于后续的RedUCe操作。5)将排序后的键值对传给不同的计算节点。6)计算节点使用RedUCe函数对每个键值对进行处理,将相同键的所有值合并在一起。7)最终愉出Reduce函数的结果。2.简述SPark工作原理答:SPark工作原理:首先看中间是一个SPark集群,可以理解为

2、是SPark的StandaIone集群,集群中有6个节点左边是Spark的客户端节点,这个节点主要负责向Spark集群提交任务,假设在这里我们向Spark集群提交了一个任务那这个Spark任务肯定会有一个数据源,数据源在这我们使用HDFS,就是让Spark计算HDFS中的数据。第六章HBaSe和HiVe数据管理1.简述HBase工作原理的理解答:HBaSe的工作原理:答:1.数据存储:HBase的数据存储是基于HDFS的分布式文件系统,它将数据分成多个块并存储在不同的服务器上。每个块都有一个唯一的块ID,这个ID可以用来定位块的位置。HBaSe的数据存储是按照列族和列来组织的,每个列族可以包含

3、多个列,每个列都有一个唯一的列ID。2 .数据访问:HBaSe的数据访问是基于行键的,每个行键都对应着一行数据。当用户需要访问一行数据时,HBaSe会根据行键找到对应的块,并从块中读取数据。HBaSe支持随机读写和批量读写,用户可以根据自己的需求选择不同的读写方式。3 .数据复制:HBaSe的数据复制是基于Had。P的复制机制,它可以将数据复制到多个服务器上,以提高数据的可靠性和可用性。HBaSe的数据复制是异步的,当数据发生变化时,HBaSe会将变化记录到WAL(WriteAheadLog)中,并异步地将变化复制到其他服务器上。4 .数据一致性:HBaSe的数据一致性是通过ZOOKeePer

4、来实现的,ZooKeePer是一个分布式的协调服务,它可以协调多个服务器之间的状态。当HBaSe的数据发生变化时,ZooKeeper会通知所有的服务器,以保证数据的一致性。2.简述Hive工作原理的理解答:Web服务器的工作原理:连接过程:是Web服务器与其浏览器之间建立的连接。检查连接过程是否实现。用户可以找到并打开虚拟文件套接字。该文件的建立意味着连接过程已经成功建立。请求过程:Web浏览器利用socket文件向其服务器发出各种请求。响应过程:在请求过程中发出的请求通过使用HTTP协议传输到Web服务器,然后执行任务处理。然后,通过使用HP协议将任务处理的结果传送到网络浏览器,并且在网络浏览器上显示所请求的界面。关闭连接:是最后一步一响应过程完成后,Web服务器与其浏览器断开连接的过程。Web服务器的上述四个步骤联系紧密,逻辑严密,可以支持多进程、多线程以及多进程、多线程混合的技术。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号