Hadoop平言模型训练基础.ppt

资源描述

《Hadoop平言模型训练基础.ppt》由会员分享，可在线阅读，更多相关《Hadoop平言模型训练基础.ppt（20页珍藏版）》请在金锄头文库上搜索。

1、Hadoop平言模型训练基础 2011 05 06 BA1 BA2 BAn 目录 1 云计算平台介绍2 WhatIsHadoop 3 Hadoop分布式文件系统4 MapReduce编程模型5 HBase数据库6 常用方法7 关键参数8 性能调优9 WordCount LogAnalysiser Probalibity 参考定义云计算 CloudComputing 是一种商业模型它将计算任务分布在大量计算机构成的资源池上使用户能够按需获取计算力存储空间和信息服务特点 1 超大规模2 虚拟化3 高可靠性多副本容错 4 通用性5 高可扩展性6 按需服务7 廉价按照服务类型分类 SaaS

2、应用软件封装成服务Salesforce公司的在线客户关系管理CRM ClientRelationshipManagement 服务PaaS 操作系统WindowsAzure HadoopIaaS 裸机磁盘亚马逊AWS AmazonWebServices 通俗分法公有云私有云混合云云计算平台介绍 1 将软件作为服务SaaS SoftwareasaService 将平台作为服务PaaS PlatformasaService 将基础设施作为服务IaaS InfrastructureasaService 专用通用典型云计算平台的实现机制用户交互接口向应用提供访问接口获取用户需求服务

3、目录是用户可以访问的服务清单系统管理模块负责管理和分配所有可用的资源其核心是负载均衡配置工具负责在分配的节点上准备运行环境监视统计模块负责监视节点的运行状态并完成用户使用节点情况的统计用户通过用户交互接口允许用户从目录中选取并调用一个服务该请求传递给系统管理模块后他将为用户分配恰当的资源然后调用配置工具为用户准备运行环境云计算平台介绍 2 TheApacheHadoopprojectdevelopsopen sourcesoftwareforreliable scalable distributedcomputing Hadoopincludesthesesubprojec

4、ts HadoopCommon ThecommonutilitiesthatsupporttheotherHadoopsubprojects HDFS Adistributedfilesystemthatprovideshighthroughputaccesstoapplicationdata MapReduce Asoftwareframeworkfordistributedprocessingoflargedatasetsoncomputeclusters HBase Ascalable distributeddatabasethatsupportsstructureddatastorag

5、eforlargetables Hadoop HighlyconfigurableparallelprogrammingframeworkUsersuppliessequentialcomputationson Key Run timesystemhandlesdatapartitioning taskscheduling andSynchronizationHidesmessydetailsofparallelizationHDFS是为了达到高数据吞吐量而优化的这是以延迟为代价的对于低延迟访问可以用Hbase 心跳检测DataNode的健康状况发现问题就采取数据备份来保证数据的安全性

6、 WhatIsHadoop HDFS是一个主从体系 NameNode 管理系统的元数据执行文件系统的命名空间操作比如打开关闭重命名文件或目录还决定数据到DataNode的映射 DataNode 存储实际数据负责处理客户端读写请求依照NameNode命令执行数据块的创建复制删除等工作 SecondaryNameNode 辅助NameNode处映像文件 FsImage 和事务日志 EditLog 会定期从NameNode上复制映像文件和事务日志到临时目录合并生成新的映像文件重新上传 Hadoop分布式文件系统 HDFS MapReduce是Google公司的核心计算模型它

7、将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数 Map和Reduce 适合用MapReduce来处理的数据集或任务有一个基本要求待处理的数据集可以分解成许多小的数据集而且每一个小数据集都可以完全并行地进行处理用MapReduce来处理大数据集的过程是将大数据集分解为成百上千的小数据集每个 some 数据集分别由集群中的一个结点 datanode core 进行处理并生成中间结果然后这些中间结果又由大量的结点进行合并形成最终结果 MapReduce编程模型 1 计算模型的核心是Map和Reduce两个函数这两个函数由用户负责实现功能是按一定的映射规则将输入的

8、对转换成另一个或一批对输出 MapReduce编程模型 2 MapReduce数据处理流程 HDFS MapReduce Hbase都是由客户端从节点和协调主节点组成 HDFS中的名称节点 NameNode 和数据节点 DataNode MapReduce中的jobtracker和tasktracker Hbase由一个主节点 master 协调一个或多个区域服务器 regionserver 从节点组成 HBase主节点负责引导初始化安装分配区域给已注册的区域服务器恢复区域服务器的故障区域服务器负责0到n个区域响应客户端的读写请求同时他们也负责通知HBase主节点区域要分裂成新

9、的子区域的信息以便HBase主节点管理父区域的下线及替代子区域的分派 HBase依赖于Zookeeper 且在默认情况下它使用一个Zookeeper实例为集群状态提供授权 HBase数据库 1 HBase是一种构建在HDFS之上的分布式面向列列族 family 的存储系统逻辑模型 Hbase在表格里存储数据是按照行进行存储的每一行都有一个可排序的主键和任意多的列由于是稀疏存储的所以同一张表里的每一行数据都可以是截然不同的列列的格式是列族列名每一个列族可以包含许多列下表共有一行行标识是 rk1 每一次逻辑修改都会有一个TimeStamp关联对应所有数据库的更新都有一

10、个时间戳标记每个更新都是一个新的版本 Hbase会保留一定数量的版本我们一般获取距离目前时间最近的版本 HBase数据库 2 物理模型 Hbase存储是按照列族进行存储的物理模型的实质是将逻辑模型一个Row分割成为根据Columnfamily存储 Hbase把同一个family里的数据存储在同一个目录底下我们保存hbase数据是按照Row进行put的获取的时候可以通过get获取该row的所有数据也可以通过scan列族获取该列族所有的数据 Hbase获取和保存数据可以嵌套到具体的MapReduce过程当中整个Hbase配置集成在Hadoop的配置上通过zookeeper进行集群

11、HBase数据库 3 第一串联就是把原本独立的MapReduce过程链接在一起执行把前一个过程的Reduce输出作为后一个过程的map输入 WordCount countingJob conf in temp WordCount sorttingJob conf temp out 第二冗余冗余就是通过牺牲一定的hdfs的空间来实现一些比较复杂的计算功能语言模型概率计算为了实现上面的语言模型概率计算功能我们就需要对一些word的counts进行拆分如我们都住在合肥8 我们都住在 t合肥 t8我们都住在20这样 key 我们都住在 value值list就在同一个reduce的

12、key值中出现我们就可以计算了为了实现语言模型重新分块我们需要保证同一个计算过程的概率P和BackOff值在同一个分块中如 P abcde P bcde B abcd P cde B bcd B abcd 我们必须保证P cde B bcd B abcd 在同一个分块中才可以进行计算这就需要我们在实现的过程中进行冗余拆分常用方法 1 第三加载就是在MapReduce过程中需要获得额外的数据支持的时候就需要进行数据加载比如加载词典文件或从hbase中读取词典加载文件的方式和java里是不一样的要加载hdfs文件管理系统的中的文件在map或reduce过程中可以在

13、setup 方法或者cleanup 方法中进行加载这和在map或者reduce过程中加载是有区别的 Calledonceatthebeginningofthetask protectedvoidsetup Contextcontext throwsIOException InterruptedException NOTHING Calledonceattheendofthetask protectedvoidcleanup Contextcontext throwsIOException InterruptedException NOTHING 常用方法 2 第四分块主要根据hashco

14、de值进行分块也可以根据设定的index值进行分块需要把相关值在map过程中传过来因为在Partitioner过程中读取相关的index值需要耗费很大资源一般可以在后面加个特殊的符号加索引如 word 1804 然后再实现的过程中解析出所需要的index值或者指定分块满足某种条件可以指定分块第五格式 Hadoop平台只支持UTF 8编码如果输入数据非UTF 8格式编码需要在map输入处理数据之前进行转码如果输出非UTF 8格式的内容需要在reduce输出的时候进行转码现在主要进行GBK和UTF 8格式之间的转码常用方法 3 core site xmlfs d

15、efault name namenode的配置机器名加端口hadoop tmp dir Hadoop的默认临时路径fs checkpoint dir 配置第二名称节点检测点fs trash interval 设置回收站保留时间hdfs site xmldfs name dir NameNode持久存储名字空间及事务日志的本地文件系统路径dfs data dir DataNode存放块数据的本地文件系统路径逗号分割的列表dfs replication 表示每个块在HDFS中的副本个数默认为3个 dfs http address NameNodeHTTP状态监视地址dfs block siz

16、e Blocksize 64M mapred site xmlmapred local dirmapred job tracker JobTracker的主机或者IP 和端口mapred tasktracker map tasks maximummapred tasktracker reduce tasks maximummapred child java opts jvm虚拟机设置关键参数 Steps 1 ChangingnumberofMapandReducetasksNumberofMapTasks DeterminedbyNumberof InputSplits TypicallyInputSplitcorrespondstoHDFSBlockCanbechangedwith mapred min split size LargeNumberofMaps MoreParallelism Lowtaskre executionpenalty computation communicationoverlap Moreschedulingoverhead NumberofRe

展开阅读全文