简单阐述hdfs的体系结构大数据开发全栈课程体系学习猿地

资源描述

《简单阐述hdfs的体系结构大数据开发全栈课程体系学习猿地》由会员分享，可在线阅读，更多相关《简单阐述hdfs的体系结构大数据开发全栈课程体系学习猿地（9页珍藏版）》请在金锄头文库上搜索。

1、简单阐述hdfs的体系结构大数据开发全栈课程体系-学习猿地大数据概论应知应会：1. 认识大数据基本概念2认识大数据生态圈3认识大数据行业落地案例业务实战：搭建Hadoop分布式集群HTML5(H5)基本文档结构大数据背景认识HadoopHadoop架构和组件Hadoop生态系统Hadoop经典落地案例Hadoop安装部署及集群搭建访问HDFS应知应会：1掌握HDFS的特性2理解HDFS的设计目标3掌握HDFS的体系结构4理解数据块基本概念5掌握数据块复制原理6掌握HDFS安全模式7理解HDFS心跳机制8掌握HDFS核心架构业务实战：阐述HDFS分布式文件系统的原理HDFS特性HDFS目标HDF

2、S核心设计数据块数据复制副本存放策略安全模式心跳机制HDFS体系结构Master/SlaveNN、SNN、DNHDFS接口应知应会：1掌握HDFS常用的命令行操作接口2学会查看HDFS文件列表3掌握文件的上传、下载、删除4掌握HDFS的Java访问接口业务实战：利用命令行和Java接口访问HDFS分布式文件系统数据库安装和使用命令行接口查看文件列表创建目录上传文件下载文件查看文件删除数据Java接口从HadoopURL读取数据通过FileSystemAPI读取数据写入数据创建目录查询文件系统删除数据HDFS分布式文件系统的运行机制应知应会：1掌握HDFS中的数据流读写2掌握RPC的实现流程及模

3、型3掌握文件的读取、写入及文件的一致性模型4掌握HA高可靠机制5熟悉HDFS的Federation机制业务实战：搭建HA应用开发平台HDFS中数据流的读写RPC实现流程RPC实现模型文件的读取文件的写入文件的一致模型HDFS的HA机制为什么有HA机制HA集群架构HDFS的Federation机制为什么引入Federation机制Federation架构多命名空间管理HadoopI/O详解应知应会：理解HDFS的数据完整性掌握HDFS的数据压缩算法掌握HDFS序列化接口掌握Hadoop数据结构理解SequenceFile存储业务实战：利用HDFS序列化Writable接口实现SequenceFi

4、le的写入数据库安装和使用HDFS的数据完整性验证数据完整性文件压缩Hadoop支持的压缩格式压缩解压缩算法codec压缩和输入分片文件序列化Writable接口WritableComparable接口自定义Writable接口Writable实现类实现定制的Writable类型序列化框架Hadoop文件的数据结构SequenceFile存储MapFile存储MapReduce编程模型应知应会：1掌握MapReduce编程模型2. 编写WordCount事例3. 掌握HadoopMapReduce架构MapReduce编程模型简介WordCount编程实例HadoopMapReduce架构Ma

5、pReduce应用编程开发应知应会：1. 配置MapReduce应用编程开发环境2. 掌握MapReduce程序设计思路3. 掌握Mapper和Reducer的编写4掌握集群上运行作业5. 熟练作业的的状态查看与检测6. 掌握MapReduce作业的调试7掌握常见的MapReduce的输入输出的格式业务实战：开发MapReduce分布式并行程序MapReduce的编程配置开发环境设计思路编写Mapper类编写Reducer类编写main方法在集群上的运作打包作业启动作业通过WebUI查看Job状态获取结果作业调试MapReduce类型与格式MapReduce中的键值对输入格式输出格式MapRe

6、duce的工作机制与丫ARN平台应知应会：1掌握MapReduce作业的运行过程2掌握Shuffle的运行过程和原理3.掌握Map段shuffle与Reduce段shuffle的原理4理解YARN平台的工作原理及架构5. 掌握ResouceManager的资源分配6. 掌握NodeManager的工作原理7. 掌握ApplicationMaster的工作原理8. 理解Container容器的工作原理9. 掌握作业的调度业务实战：刨析MapReduce作业的Shuffle过程通过案例剖析MapReduce作业运行过程shuffle和排序亠LUmap端I亠LUreduce端shuffle过程YAR

7、N平台简介YARN的诞生YARN的作用YARN的架构ResourceManagerApplicationMaster资源模型ResourceRequest和ContainerContainer规范作业的调度公平调度器计算能力调度器项目实战：日志数据分析系统应知应会：1. 掌握项目的业务需求2. 掌握项目的系统架构3. 掌握项目的需求分析4. 掌握项目的概要设计5. 掌握项目的详细设计6. 掌握项目的系统开发7. 掌握项目的单元测试8. 掌握项目的系统测试9. 掌握项目的上线部署10. 掌握项目的运营测试11. 掌握项目集群环境的搭建测试业务实战：MapReduce开发工程师项目名称：日志数据分

8、析系统数据体量：5000W+/日硬件环境：Hadoop集群12台软件环境：Hadoop2.5.2+Hive1.2.1+MR+OraclelOg开发工具：Eclipse+Jdk1.7+ETL项目职责：主要负责数据清洗，分析客户需求数据的抓取和处理。项目描述：搜狗每天产生大量的日志数据，从日志数据里面能提取到有用的数据包括每个用户的ID、浏览次数、月/日浏览频率、访问源、浏览内容等等，提取这些内容、统计数据分析每个用户行为，从而做出有利的决定。本次项目使用MapReduce框架对数据进行处理，HDFS作为底层存储，使用Hive大大加快了项目的进度，Hive自带的数据库并不适用于项目，用MySq

9、l代替，这里用到了Hive但是底层处理计算还是MapReduce,其最突出的地方就是其对MapReduce进行了包装，减少了使用MapReduce需要写大量重复JAVA代码的时间。实例分析，客户需要知道浏览过“仙剑奇侠传”的用户还浏览过其他什么内容，我们就利用MapReduce对数据进行处理得出所有浏览过“仙剑奇侠传”的用户ID,在由ID取出他们除了“仙剑奇侠传”之外的浏览内容，值得一提的是这次任务中很好的利用MapReduce的shuffle阶段的处理将大大减少任务的难度。查找到浏览次数大于某值（例如如是10）的用户，同样的通过MapReduce的处理也能解决，我们可以自己去实现Map、Reduce的处理过程，但本次项目我们用到了Hive，相对直接使用MapReduce要容易些，当然这只是两个例子，通过对数据的处理我们能得到很多有用的信息。

展开阅读全文