基于云计算的海量数据存储模型-魏婷

资源描述

《基于云计算的海量数据存储模型-魏婷》由会员分享，可在线阅读，更多相关《基于云计算的海量数据存储模型-魏婷（15页珍藏版）》请在金锄头文库上搜索。

1、基于云计计算的海量数据存储储模型报告人：魏婷一、云计算的定义v 目前，不同文献和资料对云计算的定义有不同的表述，主要有以下几种代表性的定义。 v 定义云计算是一种能够在短时间内迅速按需提供资源的服务，可以避免资源过度和过低使用。 v 定义云计算是一种并行的、分布式的系统，由虚拟化的计算资源构成，能够根据服务提供者和用户事先商定好的服务等级协议动态地提供服务。 v 定义云计算是一种可以调用的虚拟化的资源池，这些资源池可以根据负载动态重新配置，以达到最优化使用的目的。用户和服务提供商事先约定服务等级协议，用户以用时付费模式使用服务。 ResourceViews3v 云计算是一种

2、计算模式，也是一种全新的商业模式。云计算是分布式处理（Distributed Computing）、并行处理（Parallel Computing）和网格计算（Grid Computing）的发展或者说是这些计算机科学概念的商业实现。 v 云计算是随着网络中产生的越来越多的数据而被提出的，在云计算中，无数的软件和服务都置于云中，这里的云是指可以自我维护和管理的虚拟计算资源。这些软件和服务均构筑于各种标准和协议之上，可以通过各种设备来获得。 v 云计算是一种超级的计算模式，可以把网络中的计算机虚拟为一个资源池，将所有的计算资源集中起来，并用特定软件实现自动管理，使得各种计算资源可

3、以协同工作，这就使得处理数量巨大的数据成为了可能。二、基于云计计算的海量数据的存储储v 1、 MapReduce 模式 v MapReduce 是云计算的核心计算模式，是一种分布式运算技术，也是简化的分布式编程模式，用于解决问题的程序开发模型，也是开发人员拆解问题的方法。MapReduce模式的主要思想是将自动分割要执行的问题（例如程序），拆解成Map（映射）和Reduce（化简）的方式。 v MapReduce的流程如图图1所示。v 在数据被分割后通过Map 函数的程序将数据映射成不同的区块，分配给计算机机群处理达到分布式运算的效果，在通过Reduce 函数的程序将结果汇整，从而

4、输出开发者需要的结果。 v MapReduce 借鉴了函数式程序设计语言的设计思想，其软件实现是指定一个Map 函数，把键值对(key/value)射成新的键值对(key/value) ，形成一系列中间结果形式key/value 对，然后把它们传给Reduce(规约)函数，把具相同中间形式key 的value 合并在一起。Map 和Reduce 函数具有一定的关联性。函数描述如表1 所示。Text in herev 2、Hadoop 框架 v Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架，程序员可以借助Hadoop 编写程序，将所编写的程序运行于计算机机

5、群上，从而实现对海量数据的处理。此外，Hadoop 还提供一个分布式文件系统(HDFS，HadoopDistributed File System）及分布式数据库（HBase，Hadoop Database）用来将数据存储或部署到各个计算节点上。Hadoop 框架如图2 所示。v 借助Hadoop 框架及云计算核心技术MapReduce 来实现数据的计算和存储，并且将HDFS 分布式文件系统和HBase分布式数据库很好的融入到云计算框架中，从而实现云计算的分布式、并行计算和存储，并且得以实现很好的处理大规模数据的能力。v 3、基于云计算的海量数据存储模型 v 根据数据的海量特性，

6、结合云计算技术，特提出基于云计算的海量数据存储模型，如图3 所示。v 在图3 中，主服务控制机群相当于控制器部分，主要负责接收应用请求并且根据请求类型进行应答。存储节点机群相当于存储器部分，是由庞大的磁盘阵列系统或是具有海量数据存储能力的机群系统，主要功能是处理数据资源的存取。HDFS 和Hbase 用来将数据存储或部署到各个计算节点上。Hadoop 中有一个作为主控的服务器（将其称之为 JobTracker），用于调度和管理其它的计算机（将其称之为 TaskTracker），JobTracker 可以运行于机群中任一台计算机上。 TaskTracker 负责执行任务，必须运行于数

7、据存储节点（称之为 DataNode）上，也是计算节点。v JobTracker 将Map任务和Reduce 任务分发给空闲的TaskTracker，让这些任务并行运行，并负责监控任务的运行情况。如果其中任意一个 TaskTracker 出故障了，JobTracker 会将其负责的任务转交给另一个空闲的TaskTracker 重新运行。用户不直接通过Hadoop 架构读取及 HDFS 和Hbase 存取数据，从而避免了大量读取操作可能造成的系统拥塞。用户从Hadoop 架构传给主服务控制机群的信息后，直接和存储节点进行交互进行读取操作v 4、数据存取算法基本思想 v 存数据算法基本思想

8、为：存储数据时，将存储数据的信息及其附加信息（如用户ID）发送给主服务控制机群；主服务控制机群接收到数据的信息；将接收到的数据信息传送给Hadoop 架构；MapReduce 利用其Map 函数对数据进行切块计算；HDFS 和Hbase 根据节点状态将数据均衡分配到各存储节点；将数据块信息及存储节点地址返回主服务控制机群，并由主服务控制机群反馈给用户；用户为每个存储节点建立一个数据块队列，将数据块并行上传到对应的存储节点。v 取数据算法基本思想为：下载文件时，将要下载的文件信息传送给主服务控制机群；主服务控制机群接收到要下载的文件信息；HDFS 和Hbase 查找该文件的块信息，并且将查

9、找到的信息反馈给主服务控制机群；主服务控制机群然后把信息传回给用户；用户根据接收到的主服务控制机群传回的信息，为每个存储节点创建一个下载线程，将文件块并行下载到本地计算机临时文件夹中；用户在下载完所有文件块以后，根据MapReduce 的Reduce 函数整合成一个完整的文件，并删除文件块。Text in herev Hadoop 具有高容错性，能自动处理失效节点是通过MapReduce 来实现的。MapReduce 通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性，每个节点会周期性的把完成的工作和状态的更新报告回来。如果一个节点保持沉默超过一个预设的时间间隔，主节点记

10、录下这个节点状态为死亡，并把分配给这个节点的数据发到别的节点。此外每个操作要保证不会发生并行线程间的冲突。3、应用和扩展v 与云计算系统相比，云存储可以认为是配置了大容量存空间的一个云计算系统。从架构模型来看，云存储系统比云计算系统多了一个存储层，同时，在基础管理也多了很多与数据管理和数据安全有关的功能，两者在访问层和应用接口层则是完全相同的。 v 总体上讲，云计算领域的研究还处于起步阶段，尚缺乏统一明确的研究框架体系，还存在大量未明晰和有待解决的问题，研究机会、意义和价值非常明显。现有的研究大多集中于云体系结构、云存储、云数据管理、虚拟化、云安全、编程模型等技术，但云计算领域尚存在大量的开放性问题有待进一步研究和探索。

展开阅读全文

基于云计算的海量数据存储模型-魏婷

最新文档