基于云计算的海量数据存储模型-魏婷

上传人:宝路 文档编号:50732620 上传时间:2018-08-10 格式:PPT 页数:15 大小:1.79MB
返回 下载 相关 举报
基于云计算的海量数据存储模型-魏婷_第1页
第1页 / 共15页
基于云计算的海量数据存储模型-魏婷_第2页
第2页 / 共15页
基于云计算的海量数据存储模型-魏婷_第3页
第3页 / 共15页
基于云计算的海量数据存储模型-魏婷_第4页
第4页 / 共15页
基于云计算的海量数据存储模型-魏婷_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《基于云计算的海量数据存储模型-魏婷》由会员分享,可在线阅读,更多相关《基于云计算的海量数据存储模型-魏婷(15页珍藏版)》请在金锄头文库上搜索。

1、 基于云计计算的海量数据存储储模型报告人:魏婷一、云计算的定义v 目前,不同文献和资料对云计算的定义有不同的表述,主要有以下几 种代表性的定义。 v 定义 云计算是一种能够在短时间内迅速按需提供资源的服务,可 以避免资源过度和过低使用。 v 定义 云计算是一种并行的、分布式的系统,由虚拟化的计算资源 构成,能够根据服务提供者和用户事先商定好的服务等级协议动态地 提供服务。 v 定义 云计算是一种可以调用的虚拟化的资源池,这些资源池可以 根据负载动态重新配置,以达到最优化使用的目的。用户和服务提供 商事先约定服务等级协议,用户以用时付费模式使用服务。 ResourceViews3v 云计算是一种

2、计算模式,也是一种全新的商业模式。云计算是分布式 处理(Distributed Computing)、并行处理(Parallel Computing) 和网格计算(Grid Computing)的发展或者说是这些计算机科学概念 的商业实现。 v 云计算是随着网络中产生的越来越多的数据而被提出的,在云计算中 ,无数的软件和服务都置于云中,这里的云是指可以自我维护和管理 的虚拟计算资源。这些软件和服务均构筑于各种标准和协议之上,可 以通过各种设备来获得。 v 云计算是一种超级的计算模式,可以把网络中的计算机虚拟为一个资 源池,将所有的计算资源集中起来,并用特定软件实现自动管理,使 得各种计算资源可

3、以协同工作,这就使得处理数量巨大的数据成为了 可能。二、基于云计计算的海量数据的存储储v 1、 MapReduce 模式 v MapReduce 是云计算的核心计算模式,是一种分布式运算技术,也是 简化的分布式编程模式,用于解决问题的程序开发模型,也是开发人 员拆解问题的方法。MapReduce模式的主要思想是将自动分割要执行的 问题(例如程序),拆解成Map(映射)和Reduce(化简)的方式。 v MapReduce的流程如图图1所示。v 在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配 给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序 将结果汇整,从而

4、输出开发者需要的结果。 v MapReduce 借鉴了函数式程序设计语言的设计思想,其软件实现是指 定一个Map 函数,把键值对(key/value)射成新的键值对(key/value) ,形成一系列中间结果形式key/value 对,然后把它们传给Reduce(规 约)函数,把具相同中间形式key 的value 合并在一起。Map 和Reduce 函数具有一定的关联性。函数描述如表1 所示。Text in herev 2、Hadoop 框架 v Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架 ,程序员可以借助Hadoop 编写程序,将所编写的程序运行于计算机机

5、 群上,从而实现对海量数据的处理。此外,Hadoop 还提供一个分布式 文件系统(HDFS,HadoopDistributed File System)及分布式数据库 (HBase,Hadoop Database)用来将数据存储或部署到各个计算节点 上。Hadoop 框架如图2 所示。v 借助Hadoop 框架及云计算核心技术MapReduce 来实现数据的计算和存 储,并且将HDFS 分布式文件系统和HBase分布式数据库很好的融入到 云计算框架中,从而实现云计算的分布式、并行计算和存储,并且得 以实现很好的处理大规模数据的能力。v 3、基于云计算的海量数据存储模型 v 根据数据的海量特性,

6、结合云计算技术,特提出基于云计算的海量数 据存储模型,如图3 所示。v 在图3 中,主服务控制机群相当于控制器部分,主要负责接收应用请 求并且根据请求类型进行应答。存储节点机群相当于存储器部分,是 由庞大的磁盘阵列系统或是具有海量数据存储能力的机群系统,主要 功能是处理数据资源的存取。HDFS 和Hbase 用来将数据存储或部署到 各个计算节点上。Hadoop 中有一个作为主控的服务器( 将其称之为 JobTracker),用于调度和管理其它的计算机(将其称之为 TaskTracker),JobTracker 可以运行于机群中任一台计算机上。 TaskTracker 负责执行任务,必须运行于数

7、据存储节点(称之为 DataNode)上,也是计算节点。v JobTracker 将Map任务和Reduce 任务分发给空闲的TaskTracker,让 这些任务并行运行,并负责监控任务的运行情况。如果其中任意一个 TaskTracker 出故障了,JobTracker 会将其负责的任务转交给另一个 空闲的TaskTracker 重新运行。用户不直接通过Hadoop 架构读取及 HDFS 和Hbase 存取数据,从而避免了大量读取操作可能造成的系统拥 塞。用户从Hadoop 架构传给主服务控制机群的信息后,直接和存储节 点进行交互进行读取操作v 4、数据存取算法基本思想 v 存数据算法基本思想

8、为:存储数据时,将存储数据的信息及其附加信息(如用户ID)发 送给主服务控制机群;主服务控制机群接收到数据的信息;将接收到的数据信息传送给Hadoop 架构;MapReduce 利用其Map 函数对数据进行切块计算;HDFS 和Hbase 根据节点状态将数据均衡分配到各存储节点;将数据块信息及存储节点地址返回主服务控制机群,并由主服 务控制机群反馈给用户;用户为每个存储节点建立一个数据块队列,将数据块并行上传 到对应的存储节点。v 取数据算法基本思想为:下载文件时,将要下载的文件信息传送给主服务控制机群;主服务控制机群接收到要下载的文件信息;HDFS 和Hbase 查找该文件的块信息,并且将查

9、找到的信息反馈 给主服务控制机群;主服务控制机群然后把信息传回给用户;用户根据接收到的主服务控制机群传回的信息,为每个存储节 点创建一个下载线程,将文件块并行下载到本地计算机临时文件夹中 ;用户在下载完所有文件块以后,根据MapReduce 的Reduce 函数 整合成一个完整的文件,并删除文件块。Text in herev Hadoop 具有高容错性,能自动处理失效节点是通过MapReduce 来实现 的。MapReduce 通过把对数据集的大规模操作分发给网络上的每个节 点实现可靠性,每个节点会周期性的把完成的工作和状态的更新报告 回来。如果一个节点保持沉默超过一个预设的时间间隔,主节点记

10、录 下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点。 此外每个操作要保证不会发生并行线程间的冲突。3、应用和扩展v 与云计算系统相比,云存储可以认为是配置了大容量存空间的一个云 计算系统。从架构模型来看,云存储系统比云计算系统多了一个存储 层,同时,在基础管理也多了很多与数据管理和数据安全有关的功能 ,两者在访问层和应用接口层则是完全相同的。 v 总体上讲,云计算领域的研究还处于起步阶段,尚缺乏统一明确的研 究框架体系, 还存在大量未明晰和有待解决的问题,研究机会、意义 和价值非常明显。现有的研究大多集中于云体系结构、云存储、云数 据管理、虚拟化、云安全、编程模型等技术,但云计算领域尚存在大 量的开放性问题有待进一步研究和探索。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号