大数据之处理模式-陈康

上传人:n**** 文档编号:50877334 上传时间:2018-08-11 格式:PPTX 页数:135 大小:12.61MB
返回 下载 相关 举报
大数据之处理模式-陈康_第1页
第1页 / 共135页
大数据之处理模式-陈康_第2页
第2页 / 共135页
大数据之处理模式-陈康_第3页
第3页 / 共135页
大数据之处理模式-陈康_第4页
第4页 / 共135页
大数据之处理模式-陈康_第5页
第5页 / 共135页
点击查看更多>>
资源描述

《大数据之处理模式-陈康》由会员分享,可在线阅读,更多相关《大数据之处理模式-陈康(135页珍藏版)》请在金锄头文库上搜索。

1、大数据处理的模式系统结构,方法以及发展趋势INFO 陈康 (最好给这个邮件发 信) 13811372401 https:/ CN/edu/parallel/index.html 这个是教学视频,英文大数据处理的关注对象 网页数据 各种日志 电信,电信,信令数据 用电数据 政府经济统计数据 社保,银行数据大数据处理的应用 搜索引擎,网页排序 电信掉线率分析 用户的兴趣点分析,输入法 数据审计 智能翻译大数据处理的架构思路数据的存储数据分析编程数据的统计与查询SQL, MatLab, RC, JavaFS文件系统,数据库存储大数据处理的总体架构数据的存储数据分析编程数据的统计与查询LINQ,

2、HIVE, Pig LatinMapReduce, Dryad, Piccolo分布式文件系统GFS 分布式Dynamo存储 分布式BigTable存储,分布式数据库内容 数据存储技术 数据分析技术 大规模平台下的数据分析编程模型 基于编程模型的数据查询与优化 开源平台技术发展分布式系统处理的关注点 功能方面:易用性 性能方面:扩展性 分布式容错:可用性,出错容忍 正确性方面:一致性 安全性:访问控制,加密解密,入侵云计算架构与大数据分析层次将软件作为服务 SaaS (Software as a Service)将平台作为服务 PaaS (Platform as a Service)将基础设施

3、作为服务 IaaS (Infrastructure as a Service)主要是使用云计算的方式构建具体的应用,如 电子邮件,办公软件等,不作为平台的选型主要包括开发的平台 包括大数据处理的平台例如MapReduce, Dryad,Pregel等,大数据平台需要存储平 台的支持 构建应用的平台,实际上是从原先的构造 网络应用程序平台(如LAMP,J2EE等)衍 生的云平台主要包括将物理硬件虚拟化的平台 主机虚拟化:通过虚拟机的方式能够提供软件 方式的虚拟硬件,提高灵活性 网络虚拟化:通过虚拟网络,对虚拟机集群进 行隔离 存储虚拟化:提供面向对象的存储数据存储的格式 没有任何格式的文件数据,

4、任意的二进制流 键值对数据,Key-Value Pair 结构化的数据,组织成数据表格 分布式环境下的研究问题 可靠性 扩展性 安全性大数据研究中的重点K-V数据的存储 在本地中的存储方式 哈希表 日志 顺序表(B树,B+树,排序表等) 分析上述各个方法的优缺点分布式环境下的K-V存储 需要做的额外问题是如何将K定位到某个节点中 方法:直接使用哈希? 问题:扩展以及缩小的时候所需要移动的数据 解决办法:使用一致性哈希 哈希方法带来的问题 不能进行range的检索 方法:进行排序 排序方法带来的问题 需要存储元数据 几个实际的分布式K-V存储分布式环境下的文件系统 解决的关键问题:给一个文件名,

5、定位这个文件 名所代表的文件的具体存储的节点,剩下的事情 交给本地文件系统去做 Google文件系统举例,可靠性,扩展性的分析下一步是什么? 分布式数据库,用来存储结构化的数据 在此之前我们看一个分布式系统中几个重要的问 题 稳固的分布式建设套件,用以成为其他分布式系统构 建的基础 分布式套件能够处理比较恶劣的网络情况能够保持系 统的可靠性(可用性) 大家经常看到Paxos,我们下面聊聊Paxos如何构造一个稳固的分布式系 统 使用副本状态机 什么是副本状态机Replicated State Machine 副本状态机的容错能力 副本状态机的构造基础 每一步转换都需要系统中的成员同意,采取一致

6、行动 状态转换时确定性的 必须要考虑网络出错,节点出错,消息丢失,消息延 迟,消息乱序的问题 核心问题:如何在一个分布式环境下的多个节点 共同决定一个值分布式环境下的协定协议 Consensus和consistent是不一样的,有的时候都被翻 译成为一致性 Consistent一般指向数据,Consensus则是在一组机器 之间获得一致性,例如在副本状态机 FLP定理:在一个异步环境中,即使是一个进程(节 点)出现问题,一致性是无法达成的 关键一点:在异步系统中,无法区分消息是丢失来,还是 仅仅是延迟到达 Paxos算法:在半异步的环境下,是能够达成协定的 半异步:Eventually(随着时

7、间的推移,总会在某一个时 间点),大部分的节点节点会正常工作,连接这些节点的 网络也正常工作,所有的消息在一段时间内都完正确传输分布式算法的讨论 Paxos算法达到一个目的,在一组机器内部获得 一个一致的协定,即确定一个值 算法需要保证安全性以及活跃性(能够得出结果 ) 前提条件:每一个参与协议的节点都只能根据自 己的内部状态以及别人传入的消息进行下一步的 工作 安全性safety:坏的事情永远永远不要发生 活跃性liveness:好的事情会最终会发生(无法 定出一个时间的期限,因为消息会延迟到达)Paxos算法的大概过程 安全性: 最后只能决定出一个值,不能是多个值 最后决定的值必须某一个节

8、点提出来的值,不能是一个没有意义的值 一个值只有被确定之后才能够被节点以及外界所获知 活跃性: 最终这组节点会决定出一个值 Paxos算法: 是一个多轮的过程,每一轮都通过自己本地的状态以及消息来决定下一步的工作 关键:在提出建议之前首先去了解一下系统的状况(通过发消息),然后才提建议(要么是新建议,要么是老建议),从而不去破坏系统可能决定的状态Step 1: Prepare(a) A proposer selects a proposal number n and sends a PREPARE request with number n to a majority of acceptors

9、.Step 2: Promise PROMISE n Acceptor will accept proposals only numbered n or higher Proposer 1 is ineligible because a quorum has voted for a higher number than j(b) If an acceptor receives a prepare request with number n greater than that of any prepare request to which it has already responded, th

10、en it responds to the request with a promise not to accept any more proposals numbered less than n and with the highest-numbered proposal (if any) that it has accepted.P1a . An acceptor can accept a proposal numbered n iff it has not responded to a prepare request having a number greater than n.Step

11、 3: Accept!(a) If the proposer receives a response to its prepare requests (numbered n) from a majority of acceptors, then it sends an ACCEPT request to each of those acceptors for a proposal numbered n with a value v, where v is the value of the highest-numbered proposal among the responses, or is

12、any value if the responses reported no proposals.Step 4: Accepted(b) If an acceptor receives an accept request for a proposal numbered n, it accepts the proposal unless it has already responded to a PREPARE request having a number greater than n.Learning valuesIf a learner interrogates the system, a

13、 quorum will respond with fact V_kA learner will send LEARN request to all (or majority) of the accepters. Acceptors will response with the accepted proposals. If a proposal is accepted by the majority of accepters, this proposal is the decided one.Paxos算法以及RSM的应用 分布式系统中有一些关键信息可以放在副本状态 机中(副本状态机可以存放在

14、地里位置分离的位 置,以保证可靠性) 接口: 一个复制形态的文件系统,能够存储少量数据(例如 配置文件,数据库中表格的位置) 提供分布式的锁的环境,提供超时,能够对共享资源 进行保护 典型系统:Chubby,是Google内部一个稳固的分 布式组件,在多个数据中心之间进行同步,提供 简单的文件存储以及锁服务继续分布式存储 BigTable:在google中用以存储半结构化数据 要点: 建立在Google File System之上 有一个关联的数据模型(不是一个纯的关系型数据库 ) 使用类似于B+树的结构完成数据的排序与查询 优化手段提高速度,以下是要点一个典型的分布式后台服务集 群配置集群调

15、度主节点锁服务GFS主节点Scheduler slaveGFS chunkserverLinux节点 1Scheduler slaveGFS chunkserverLinux节点 2Scheduler slaveGFS chunkserverLinux节点 NMapReduce Job1MapReduce Job1Single TaskBigTable ServerBigTable ServerBigTable MasterBigTable中的基本数据模型例子模型: 网络数据表“Contents:”“anchor:”“anchor:my.look.ca”“n.www”“CNN”“CNN.com”t3t5 t6t9t8Bigtable的数据模型是一个多维映射表多维映射表还是传统的记录格式,包括行和列,一行是一条记录,一列是一项属性一行和一列共同维持了一个到数据单元的映射,每一个单元有一个时间戳i.e. (row: string , column: string , time:int64 ) String (cell contents).每一行都有一个行的主键key,所有行按照行主键进行排序一段行的范围是动态划分

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号