大数据技术中计算与数据的协作机制

上传人:jiups****uk12 文档编号:37670502 上传时间:2018-04-20 格式:DOCX 页数:3 大小:20.59KB
返回 下载 相关 举报
大数据技术中计算与数据的协作机制_第1页
第1页 / 共3页
大数据技术中计算与数据的协作机制_第2页
第2页 / 共3页
大数据技术中计算与数据的协作机制_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《大数据技术中计算与数据的协作机制》由会员分享,可在线阅读,更多相关《大数据技术中计算与数据的协作机制(3页珍藏版)》请在金锄头文库上搜索。

1、【核心期刊网】中国权威论文发表平台,我们为您提供专业的论文发表咨询和论文发表辅导!【核心期刊网】中国权威论文发表平台,我们为您提供专业的论文发表咨询和论文发表辅导!大数据技术中计算与数据的协作机制 王琦摘 要:我们现今正处于大数据时代当中,同高性能计算系统相似,大数据系统在数据 储存以及计算方面一般为基于机群实现的。为了能够在大数据环境中使数据能够同计算间 获得更好的协调,在文章中,将就大数据技术中计算与数据的协作机制进行一定的研究。 关键词:大数据技术;计算与数据;协作机制 引言 在现今信息技术发展中,数据同计算可以说是信息技术发展过程中的两个重要主题, 在这两个主题的基础上,信息技术也逐渐

2、出现了大数据技术概念。从严格意义来说,所谓 大数据技术,即是针对于海量数据的分析、存储以及发布技术。对于这部分海量数据来说, 我们很难直接对其进行应用,在获得数据之后,需要在经过一定处理后才能够获得有用的 数据,如何能够实现大数据时代下数据同计算的科学协作、并能够将其形成一种机制,则 成为了目前非常重要的一项问题。 1 计算同数据协作机制对比 对于面对数据系统来说,其一般为分布式系统类型,即通过将计算向数据进行迁移对 系统中数据传递代价进行降低,可以说是一种通过计算对数据进行寻找的方式。要想对数 据进行计算,实现数据的定位可以说是一项重要的前提,而数据切分以及存储方式情况也 将对计算的模式以及

3、处理效率产生影响。对此,要想对数据同计算间的科学协作进行实现, 就需要对数据在分布式文件系统中的存储方式进行研究。而由于在分布式系统当中,需要 对数据冗余、节点失效以及备份等问题进行解决,就对数据同计算协作价值的研究带来了 较大的挑战。在两者协作机制研究中,数据同计算的一致性可以说是研究重点,需要首先 从该方面进行讨论与解决。 1.1 位置一致性映射模型 对于分布式系统中数据同计算的一致性问题,我们可以将其理解为将两者在同一节点 位置映射,即在数据存储区域发起计算。以网格计算系统为例,其到达客户节点的数据是 计算先于数据,并根据客户端请求将数据映射到客户端中进行处理。对于 Hadoop 系统来

4、 说,就是先将数据存储到系统的一个节点当中,当系统发起计算时,再对元数据进行查询 后对数据存储位置进行获得,并将计算任务映射到节点当中进行处理。根据此种情况,我 们可以将计算同数据间的映射比作是数据到节点的映射过程,在该过程中,数据片同计算 程序在按照一定规则到节点进行定位之后将两者注入到节点当中,而到该节点失效时,数 据片则会按照相应的规则进行数据备份以及迁移,并重新按照规则实现到节点的对应。 在上述模型中,我们可以将计算视作是一种具有特殊特征的数据类型,这是因为对于 计算而言,其自身就是程序语言设计的可执行程序片,在系统映射过程中,可以将其同数 据进行同等的看待,且在程序中一般也将包括相关

5、数据的逻辑位置信息。在分布式文件中, 其中的定位算法也正是数据同节点间的映射功能,即要想对两者的一致性位置进行实现, 就离不开分布式文件系统的支持。同时,由于在分布式系统中计算迁移、存储迁移以及数 据冗余问题的存在,在具体功能实现时,也将对存储冗余以及均衡调度等技术进行结合性 的应用,以此对两者科学协作、且具有稳定健壮特征的系统进行实现。映射方式方面,则 有哈希映射以及元数据映射等。 1.2 元数据映射算法 对于该类算法来说,其可以说是最为基础的对存储位置同计算一致性进行实现的方法, 在实际应用中,该方式通过数据块存储位置的查找使该位置能够同指定的存储节点进行映【核心期刊网】中国权威论文发表平

6、台,我们为您提供专业的论文发表咨询和论文发表辅导!【核心期刊网】中国权威论文发表平台,我们为您提供专业的论文发表咨询和论文发表辅导!射,在其对计算同数据的定位实现中,同网络路由表原理较为类似,即两者通过对有路由 的查询保证数据能够同计算被分配到同一个节点当中。对于应用该方式的系统来说,其一 般为主从结构类型,如果其中出现单点失效情况,则将对整个系统产生较大的影响。对于 HDFS 以及 GFS 结构来说,就是以该数据方式构建的。在实际对数据进行存储时,其一般会 根据节点目前存储负载情况进行判断,而为了避免结构对失效情况具有过高的敏感性,也 有学者通过对元数据进行复制的方式提升系统可用性。 通过该

7、方式的应用,则能够以较为便利的方式对机群系统目前状态进行利用,在以其 为依据的基础上对系统的负载均衡进行实现。此时,系统主节点则会通过一定调度算法的 应用对数据计算以及存储进行分配,在对系统负载均衡进行实现的同将分配信息作为元数 据进行保存。目前,很多针对集群负载均衡算法都能够在元数据方法中进行应用、并将其 作为对柱节点资源进行分配的依据。在实际应用中,虽然该方式在网络信息搜索以及大量 复杂均衡算法的应用方面具有较好的表现,但当系统具有较多数量小文件时,则需要对路 由数据进行大量的维护,并因此对数据的查询效果产生影响。 1.3 哈希映射算法 哈希算法是一种从稀疏到紧密值的映射方式,在计算以及存

8、储定位时,可以将其视作 路由算法的一种,通过该方式的应用,则能够将目标定位到节点位置。对于传统的哈希算 法,其在扩展性以及容错性方面的表现都一般,并不能够较为有效的对面向数据系统节点 的动态变化相适应,1997 年,学者 David Karger 提出了使用一致性哈希算法对数据进行定 位,并在后续的改进中逐渐使其成为了分布式存储中的标准技术类型。当系统对该方式进 行应用之后,则不需要对中心节点元数据进行维护,可以说对普通元数据服务器性能瓶颈 以及单点失效问题进行了较好的解决,其实现过程为:首先通过 Key 值的应用将 MD5 算法 变换成一个 32 位长度的 16 进制数值,在以该数值进行 2

9、32 取模后将其映射到环状哈希空 间,并以相同的方式将节点映射到环状哈希空间当中,此时 Key 则会在哈希空间中寻找到 节点值作为路由值。 2 计算同数据的流式拓朴协作机制 2.1 Storm 系统 流水线技术是对高性能数据进行处理的重要技术类型,其主要技术思想即将一个任务 分解成多个具有前后关系的子任务,在流水线模式中,各个子任务的启动同之前顺序任务 的完成情况具有依赖,对具有先后相关性数据分析方面具有较好的实用性特征。目前,以 分布式系统以及流式技术为协作的框架机制已经在应用中表现出了较好的生命力以及灵活 性,在本研究中,将以 Storm 系统为例进行简单的介绍。 Storm 是由 Twi

10、tter 所推出的一种流式分布式系统,在该集群中,由多个工作节点以及 一个主节点组成,其中,主节点可以说是系统的核心,具有任务布置、代码分配以及故障 检测等作用。在该系统中,当其要对实时计算任务进行完成时,需要对一个 Topology 进行 建立,并由该模块对数据处理进行规划。在 Storm 系统中,元组是基本的数据流单位,可 以将其看作是一个被封装的数据结构类型,在 Storm 系统中,Topology 可以说是最高级别 的执行单元,其是由很多个节点所组成的拓扑,在拓扑中,由不同节点对相应的计算逻辑 进行完成。在该系统中,Spout 是系统的数据流生成器,而 Bolt 则为不同的处理位置。对

11、 于数据流来说,由于 Spout 为数据源头,在实际运行中,其在对数据进行读取之后则会实 现向 Bolt 的传送,其不仅能够对多个输入流进行接收,且能够较好的对数据进行特定处理。 在 Storm 系统对 Topology 进行应用之后,其则具有了更为强大以及更为灵活的数据处理能 力,节点在根据 Topology 逻辑对任务进行分配之后将任务分配到相应物理节点之上。而从 整个架构情况看来,在数据以及计算协作处理方面,系统主要是通过 Topology 进行分配, 并在按照其描述之后由对应的节点程序进行处理,并由主节点将根据一个逻辑实现物理节【核心期刊网】中国权威论文发表平台,我们为您提供专业的论文

12、发表咨询和论文发表辅导!【核心期刊网】中国权威论文发表平台,我们为您提供专业的论文发表咨询和论文发表辅导!点的映射。 2.2 流式拓朴映射模型 在 Storm 系统中,其通过 Topology 结构的应用,则能够对较为复杂的分布式数据处理 任务进行实现,在整个过程中,对于不同计算任务,Topology 好比是逻辑规划,并没有对 相应的物理节点进行对应,在系统主节点中,可能具有数量较多的该种结构,而对于每一 个结构都可以将其视作为对特殊问题进行处理的逻辑规划,可以说,通过 Topology 结构的 应用,则能够对大多数问题的处理方式进行描述。其整个过程可以抽象如图 1 所示。 在图 1 中,每一

13、个操作就可以将其是作为 Bolt,而数据发生器则为 Spout,在该系统中, 同样由主节点对很多个处理节点进行管理与监控,对于每个任务的逻辑规划,主节点都会 在一定策略的基础上对物理节点进行分配,以此对相关的计算恩物进行完成。如上图中, 主节点为操作 1 分配物理节点 1,为操作 2 分配物理节点 2,为操作 3 分配物理节点 3,为 操作 4 分配物理节点 1,在以该种方式进行分配之后,Topology 则能够被映射为集群物理 结构,并能够对相应的计算任务进行完成。而作为编程人员,在工作当中仅仅需要对 Topology 的逻辑结构进行定义即可,其后续相关工作则完全由系统进行维护,作为设计人

14、员,在整个操作过程中也不需要对失效问题进行担心,这是因为当某个节点出现失效情况 时,主节点将根据对应操作将其对一个好的物理节点进行重新的映射,以此保证整个规划 能够得到顺利的实现。 通过上述的分析可以了解到,通过流式拓朴映射方法的应用,则能够使系统根据 Topology 描述的情况对不同的集群计算结构进行自动组合,以此以更为灵活的方式对复杂 问题进行处理。在整个过程中,系统的主节点具有数据路由以及计算的作用,并通过 Topology 的描述对协作机制的跟踪定位进行实现。 在此,我们以 MPS 对 Topology 到物理的映射过程进行模拟,在节点间,将通过 Mpi_Send()函数的应用将流数

15、据元组注入到节点当中,并在该节点上对相关操作进行发 起,之后,通过 MPI_Recv()函数的应用对前端数据进行接收,以此对节点间通讯进行实 现。对于该种方式来说,其能够对不同数据系统仅仅能够进行非实时数据批处理的问题进 行了较好的避免,具有较好的应用效果。 3 结束语 在现今大数据时代背景下,数据同计算间的协作具有了更为重要的意义。在上文章, 我们对大数据技术中计算与数据的协作机制进行了一定的研究,需要能够联系实际进行系 统模式的选择与应用,以此更好的对数据处理任务进行实现。 参考文献 1罗象宏,舒继武.存储系统中的纠删码研究综述J.计算机研究与发展,2012(1): 77-79. 2郭本俊,王鹏,陈高云,等.基于 MPI 的云计算模型J.计算机工程,2009(24): 166-167. 3杨东日,胡然.再谈云计算及其产业发展的态势与建议J.通信管理与技术, 2014(6):88-89.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号