Hadoop平言模型训练基础.ppt

上传人:飞****9 文档编号:132457865 上传时间:2020-05-16 格式:PPT 页数:20 大小:1.09MB
返回 下载 相关 举报
Hadoop平言模型训练基础.ppt_第1页
第1页 / 共20页
Hadoop平言模型训练基础.ppt_第2页
第2页 / 共20页
Hadoop平言模型训练基础.ppt_第3页
第3页 / 共20页
Hadoop平言模型训练基础.ppt_第4页
第4页 / 共20页
Hadoop平言模型训练基础.ppt_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《Hadoop平言模型训练基础.ppt》由会员分享,可在线阅读,更多相关《Hadoop平言模型训练基础.ppt(20页珍藏版)》请在金锄头文库上搜索。

1、Hadoop平言模型训练基础 2011 05 06 BA1 BA2 BAn 目录 1 云计算平台介绍2 WhatIsHadoop 3 Hadoop分布式文件系统4 MapReduce编程模型5 HBase数据库6 常用方法7 关键参数8 性能调优9 WordCount LogAnalysiser Probalibity 参考定义 云计算 CloudComputing 是一种商业模型 它将计算任务分布在大量计算机构成的资源池上 使用户能够按需获取计算力 存储空间和信息服务 特点 1 超大规模2 虚拟化3 高可靠性 多副本容错 4 通用性5 高可扩展性6 按需服务7 廉价按照服务类型分类 SaaS

2、 应用软件封装成服务Salesforce公司的在线客户关系管理CRM ClientRelationshipManagement 服务PaaS 操作系统WindowsAzure HadoopIaaS 裸机 磁盘亚马逊AWS AmazonWebServices 通俗分法 公有云 私有云 混合云 云计算平台介绍 1 将软件作为服务SaaS SoftwareasaService 将平台作为服务PaaS PlatformasaService 将基础设施作为服务IaaS InfrastructureasaService 专用通用 典型云计算平台的实现机制 用户交互接口向应用提供访问接口 获取用户需求 服务

3、目录是用户可以访问的服务清单 系统管理模块负责管理和分配所有可用的资源 其核心是负载均衡 配置工具负责在分配的节点上准备运行环境 监视统计模块负责监视节点的运行状态 并完成用户使用节点情况的统计 用户通过用户交互接口允许用户从目录中选取并调用一个服务 该请求传递给系统管理模块后 他将为用户分配恰当的资源 然后调用配置工具为用户准备运行环境 云计算平台介绍 2 TheApacheHadoopprojectdevelopsopen sourcesoftwareforreliable scalable distributedcomputing Hadoopincludesthesesubprojec

4、ts HadoopCommon ThecommonutilitiesthatsupporttheotherHadoopsubprojects HDFS Adistributedfilesystemthatprovideshighthroughputaccesstoapplicationdata MapReduce Asoftwareframeworkfordistributedprocessingoflargedatasetsoncomputeclusters HBase Ascalable distributeddatabasethatsupportsstructureddatastorag

5、eforlargetables Hadoop HighlyconfigurableparallelprogrammingframeworkUsersuppliessequentialcomputationson Key Run timesystemhandlesdatapartitioning taskscheduling andSynchronizationHidesmessydetailsofparallelizationHDFS是为了达到高数据吞吐量而优化的 这是以延迟为代价的 对于低延迟访问 可以用Hbase 心跳检测DataNode的健康状况 发现问题就采取数据备份来保证数据的安全性

6、 WhatIsHadoop HDFS是一个主从体系 NameNode 管理系统的元数据 执行文件系统的命名空间操作 比如 打开 关闭 重命名文件或目录 还决定数据到DataNode的映射 DataNode 存储实际数据 负责处理客户端读写请求 依照NameNode命令 执行数据块的创建 复制 删除等工作 SecondaryNameNode 辅助NameNode处映像文件 FsImage 和事务日志 EditLog 会定期从NameNode上复制映像文件和事务日志到临时目录 合并生成新的映像文件重新上传 Hadoop分布式文件系统 HDFS MapReduce是Google公司的核心计算模型 它

7、将复杂的运行于大规模集群上的并行计算过程高度的抽象到了两个函数 Map和Reduce 适合用MapReduce来处理的数据集 或任务 有一个基本要求 待处理的数据集可以分解成许多小的数据集 而且每一个小数据集都可以完全并行地进行处理 用MapReduce来处理大数据集的过程 是将大数据集分解为成百上千的小数据集 每个 some 数据集分别由集群中的一个结点 datanode core 进行处理并生成中间结果 然后这些中间结果又由大量的结点进行合并 形成最终结果 MapReduce编程模型 1 计算模型的核心是Map和Reduce两个函数 这两个函数由用户负责实现 功能是按一定的映射规则将输入的

8、对转换成另一个或一批对输出 MapReduce编程模型 2 MapReduce数据处理流程 HDFS MapReduce Hbase都是由客户端 从节点和协调主节点组成 HDFS中的名称节点 NameNode 和数据节点 DataNode MapReduce中的jobtracker和tasktracker Hbase由一个主节点 master 协调一个或多个区域服务器 regionserver 从节点组成 HBase主节点负责引导初始化安装 分配区域给已注册的区域服务器 恢复区域服务器的故障 区域服务器负责0到n个区域 响应客户端的读写请求 同时 他们也负责通知HBase主节点 区域要分裂成新

9、的子区域的信息 以便HBase主节点管理父区域的下线及替代子区域的分派 HBase依赖于Zookeeper 且在默认情况下 它使用一个Zookeeper实例为集群状态提供授权 HBase数据库 1 HBase是一种构建在HDFS之上的分布式 面向列 列族 family 的存储系统 逻辑模型 Hbase在表格里存储数据 是按照行进行存储的 每一行都有一个可排序的主键和任意多的列 由于是稀疏存储的 所以同一张表里的每一行数据都可以是截然不同的列 列的格式是列族 列名 每一个列族可以包含许多列 下表共有一行 行标识是 rk1 每一次逻辑修改都会有一个TimeStamp关联对应 所有数据库的更新都有一

10、个时间戳标记 每个更新都是一个新的版本 Hbase会保留一定数量的版本 我们一般获取距离目前时间最近的版本 HBase数据库 2 物理模型 Hbase存储是按照列族进行存储的 物理模型的实质是将逻辑模型一个Row分割成为根据Columnfamily存储 Hbase把同一个family里的数据存储在同一个目录底下 我们保存hbase数据是按照Row进行put的 获取的时候可以通过get获取该row的所有数据 也可以通过scan列族获取该列族所有的数据 Hbase获取和保存数据可以嵌套到具体的MapReduce过程当中 整个Hbase配置集成在Hadoop的配置上 通过zookeeper进行集群

11、HBase数据库 3 第一 串联 就是把原本独立的MapReduce过程链接在一起执行 把前一个过程的Reduce输出作为后一个过程的map输入 WordCount countingJob conf in temp WordCount sorttingJob conf temp out 第二 冗余 冗余就是通过牺牲一定的hdfs的空间 来实现一些比较复杂的计算功能 语言模型概率计算 为了实现上面的语言模型概率计算功能 我们就需要对一些word的counts进行拆分 如 我们都住在合肥8 我们都住在 t合肥 t8我们都住在20这样 key 我们都住在 value值list就在同一个reduce的

12、key值中出现 我们就可以计算了 为了实现语言模型重新分块 我们需要保证同一个计算过程的概率P和BackOff值在同一个分块中 如 P abcde P bcde B abcd P cde B bcd B abcd 我们必须保证P cde B bcd B abcd 在同一个分块中 才可以进行计算 这就需要我们在实现的过程中进行冗余拆分 常用方法 1 第三 加载 就是在MapReduce过程中 需要获得额外的数据支持的时候 就需要进行数据加载 比如加载词典文件 或从hbase中读取词典 加载文件的方式和java里是不一样的 要加载hdfs文件管理系统的中的文件 在map或reduce过程中 可以在

13、setup 方法或者cleanup 方法中进行加载 这和在map或者reduce过程中加载是有区别的 Calledonceatthebeginningofthetask protectedvoidsetup Contextcontext throwsIOException InterruptedException NOTHING Calledonceattheendofthetask protectedvoidcleanup Contextcontext throwsIOException InterruptedException NOTHING 常用方法 2 第四 分块 主要根据hashco

14、de值进行分块 也可以根据设定的index值进行分块 需要把相关值在map过程中传过来 因为在Partitioner过程中 读取相关的index值需要耗费很大资源 一般可以在后面加个特殊的符号加索引 如 word 1804 然后再实现的过程中解析出所需要的index值 或者指定分块 满足某种条件可以指定分块 第五 格式 Hadoop平台只支持UTF 8编码 如果输入数据非UTF 8格式编码 需要在map输入 处理数据之前 进行转码 如果输出非UTF 8格式的内容 需要在reduce输出的时候进行转码 现在主要进行GBK和UTF 8格式之间的转码 常用方法 3 core site xmlfs d

15、efault name namenode的配置 机器名加端口hadoop tmp dir Hadoop的默认临时路径fs checkpoint dir 配置第二名称节点检测点fs trash interval 设置回收站保留时间hdfs site xmldfs name dir NameNode持久存储名字空间及事务日志的本地文件系统路径dfs data dir DataNode存放块数据的本地文件系统路径 逗号分割的列表dfs replication 表示每个块在HDFS中的副本个数 默认为3个 dfs http address NameNodeHTTP状态监视地址dfs block siz

16、e Blocksize 64M mapred site xmlmapred local dirmapred job tracker JobTracker的主机 或者IP 和端口mapred tasktracker map tasks maximummapred tasktracker reduce tasks maximummapred child java opts jvm虚拟机设置 关键参数 Steps 1 ChangingnumberofMapandReducetasksNumberofMapTasks DeterminedbyNumberof InputSplits TypicallyInputSplitcorrespondstoHDFSBlockCanbechangedwith mapred min split size LargeNumberofMaps MoreParallelism Lowtaskre executionpenalty computation communicationoverlap Moreschedulingoverhead NumberofRe

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号