移动大数据平台架构设计方案

上传人:第*** 文档编号:55605386 上传时间:2018-10-02 格式:PDF 页数:39 大小:1.58MB
返回 下载 相关 举报
移动大数据平台架构设计方案_第1页
第1页 / 共39页
移动大数据平台架构设计方案_第2页
第2页 / 共39页
移动大数据平台架构设计方案_第3页
第3页 / 共39页
移动大数据平台架构设计方案_第4页
第4页 / 共39页
移动大数据平台架构设计方案_第5页
第5页 / 共39页
点击查看更多>>
资源描述

《移动大数据平台架构设计方案》由会员分享,可在线阅读,更多相关《移动大数据平台架构设计方案(39页珍藏版)》请在金锄头文库上搜索。

1、集团公司网络部集团公司网络部大 数 据 技 术 网络部网络部网管支撑处网管支撑处20152015年年1212月月集团公司网络部集团公司网络部目 录- 2 - 一、大数据的背景与定义一、大数据的背景与定义二、大数据的关键技术二、大数据的关键技术三、网管领域应用展望三、网管领域应用展望- 2 - 集团公司网络部集团公司网络部数据管理技术发展历史数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使数据管理技术历经人工管理、文件管理、数据库管理等时代,大数据技术的出现使 该领域进入了一个新的发展阶段该领域进入了一个新的发展阶段- 3 - 1946195119561961197019

2、74197919912001200320082011第一台计 算机 ENIAC面 世磁带+卡 片 人工管 理磁盘被 发明, 进入文 件管理 时代网络型SQLE-RGE公司发 明第一个网 络模型数据 库,但仅限 于GE自己 的主机1960年代,IT系统规模和复杂度变大,数据与应用分 离的需求开始产生,数据库技术开始萌芽并蓬勃发展, 并在1990年后逐步统一到以关系型数据库为主导IBM E.F.Do dd提 出关系 模型SQL语 言被发 明关系型 数据库ORACL E发布第 一个商 用SQL 关系数 据库, 后续快 速发展数据仓库数据仓库开 始涌现,关 系数据库开 始全面普及 且平台无关, 进入成

3、熟期2001年后,互联网迅 速发展,数据量成倍递 增,量变引起质变,开 始对数据管理技术提出 全新的要求1946年,电脑诞生,数 据与应用紧密捆绑在文件 中,彼此不分Hadoop成 为Apache 顶级项目, 重点支持海 量数据分布 式管理和分 布式计算GFS谷歌发表 论文介绍 分布式计 算集团公司网络部集团公司网络部大数据发展背景全球信息化发展已步入大数据时代全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送 290万封电子邮件每天有 2.88 万小时视频上传到YoutubeFacebook 每日评论达32亿条,每天上传照片近3亿张 ,每月处理数据总量约130万TB201

4、1年全球产生数据量1.8ZB,预计2020年将增长到 35ZB大数据正迅速成为最值得关注的大数据正迅速成为最值得关注的IT IT领域之一领域之一2011年5月,EMC World 2011大会主题“云计算相遇 大数据”,EMC 除了一直倡导的云计算外,还抛出“大 数据“(BigData)概念2011年6月底,IBM、麦肯锡等众多国外机构发布“大数 据“相关研究报告,予以积极跟进2011 年10 月,Gartner 认为2012 年十大战略技术将包 括“大数据“2011 年11 月底,IDC 将“大数据“放入2012 年信息通信 产业十大预测之一- 4 - IDC全球数据量预测( 1ZB = 1

5、百万PB = 10亿TB)Google网站 Big data关键词搜索及新闻引用量集团公司网络部集团公司网络部大数据的定义IDCIDC对大数据的定义对大数据的定义大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大体量(volumes)、多类别(variety)的数据中提取价值(value),是IT领域新一代的技术与架构解读大数据定义解读大数据定义业务目标:在1E(成本可接受-economically)的条件下从大数据中提取数据的价值(Value)技术要求:满足3V (快速-Velocity、大体量-Volumes、多

6、类别-Variety)的特征技术方案:未提及,可能是新兴技术与传统技术的混搭- 5 - 集团公司网络部集团公司网络部IT行业大数据相关动向和举措- 6 - 大数据正成为大数据正成为IT IT行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈行业全新的制高点,各企业和组织纷纷助推大数据的发展,相关技术呈 现百花齐放局面,并在现百花齐放局面,并在互联网应用领域互联网应用领域崭露头角崭露头角商业解决方案lHP 2011年推出vertica数据库 lOracle 2011年推出noSQL数据库 lEMC 2010年收购Greenplum lTeradata 2011年收购Asterdata

7、,并推出 SQL-Mapreduce lIBM 2010年收购Netezza lSAP 2011年收购Sybase开源解决方案l开源组织Apache在2008年将Hadoop列为顶级 项目 l2010年 HBase自Hadoop上诞生 l开源组织GNU 2010年发布Mongodb lVmware 2010年提供开源产品Redis lTwitter 2011年提供开源产品Storm商业企业和开源组织都纷纷推出各种大数据解决方案,这些方案既存在相同点,也各有侧 重,目前尚无统一的行业技术标准或技术领域细分规则互联网企业IT实力强且海量数据处理需求最为迫切, 是大数据发起者、倡导者、开发者和最终使

8、用者, 大数据应用场景十分清晰 lGoogle 研发Bigtable并自行使用 lYahoo发起Hadoop/Hbase开源并自用, FACEBOOK、百度、淘宝等均使用 lTwitter开发Storm自用并提供开源传统企业IT能力有限,数据处理工作主要依赖于系 统集成商,重点在应用实现,IT技术路线上以跟随 成熟技术(含开源技术)为主 目前还是以数据库、数据仓库技术为主,对大数 据技术仍处于认知或小范围摸索实验阶段,应用 场景仍在分析梳理中互联网企业传统企业- 6 - 集团公司网络部集团公司网络部目 录- 7 - 一、大数据的背景与定义一、大数据的背景与定义二、大数据的关键技术二、大数据的关

9、键技术三、网管领域应用展望三、网管领域应用展望集团公司网络部集团公司网络部相关概念与相关技术概览数据结构: 结构化数据与非结构化数据数据库数据模型:关系型数据库与非关系型数据库数据处理特性:OLTP与OLAP数据一致性:强一致性与最终一致性数据存储方式:行式存储与列式存储数据库存储与处理架构:SMP与MPP数据存储架构:传统分布式文件与新型分布式文件数据处理架构:基于并行计算的分布式数据处理技术(MapReduce)- 8 - 集团公司网络部集团公司网络部数据的结构结构化、非结构化、半结构化数据- 9 - 对比项对比项结构化数据结构化数据非结构化数据非结构化数据半非结构化数据半非结构化数据定义

10、定义 有数据结构描述信息 的数据 不方便用固定结构来 表现的数据 介于完全结构化数据 和完全无结构的数据 之间的数据结构与内容的关系结构与内容的关系 先有结构、再有数据 只有数据,没有结构 先有数据,再有结构示例示例 各类表格 图形、图像、音频、 视频信息 HTML文档,它一般是 自描述的,数据的结 构和内容混在一起结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者结构化数据和非结构化数据都是客观存在,大数据技术需要涵盖两者集团公司网络部集团公司网络部数据库数据模型关系型数据库与非关系型数据库在大数据技术中在大数据技术中“ “非关系型非关系型“ “数据库技术是必不可少的,但关系数据库

11、也是不可或缺的数据库技术是必不可少的,但关系数据库也是不可或缺的- 10 - 对比项对比项关系型数据库关系型数据库非关系型数据库非关系型数据库定义定义 创建在关系模型基础上,借助于集合代数 等数学概念和方法来处理数据库中的数据 关系模型由关系数据结构、关系操作集合、 关系完整性约束三部分组成 没有标准定义 包括:表存储数据库、键值存储 数据库、面向文档的数据库等接口语言接口语言 SQL(Structured Query Language, 结构化查询语言),对数据库中的数据进 行查询、操作和管理 无统一标准 包括:各自定义的API、类SQL、 MR等典型案例典型案例 Oracel、DB2、Sy

12、base、SQL Server、 Mysql、Postgresql等 新型的MPP RDB(Greenplum)也属于 关系型数据库 Hbase、MongoDB、Redis集团公司网络部集团公司网络部数据处理特性OLTP与OLAP- 11 - 比较项比较项联机事务处理联机事务处理OLTPOLTP( On-Line On-Line Transaction Processing Transaction Processing )联机分析处理联机分析处理OLAPOLAP( On-Line On-Line Analytical Processing Analytical Processing )基本类型

13、基本类型业务操作型业务分析型数据特性数据特性对一条记录数据会多次修改,支持 大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持 大量并发用户进行大数据量查询技术特性技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量数据量GB-TB级TB-PB级典型示例典型示例银行业务系统/数据库各类决策分析系统/数据库OLTPOLTP以业务操作型为主,以业务操作型为主,OLAPOLAP以业务分析性为主,两者对技术的要求很难兼顾以业务分析性为主,两者对技术的要求很难兼顾- 11 - 集团公司网络部集团公司网络部数据一致性:强一致性与最终一致性-

14、 12 - 强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供强一致性和最终一致性都是指客户端向数据库系统写入数据后,数据库系统能够提供 的数据一致性的表现的数据一致性的表现对比项对比项强一致性(即时一致性)强一致性(即时一致性)最终一致性最终一致性弱一致性弱一致性场景定义场景定义 假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现数据一致性表现 A写入数据到存储系 统后,存储系统能够 保证后续任何时刻发 起读操作的B、C 可 以读到A写入的数据 A写入数据到存储系 统后,经过一定时间, 或者在某个特定操作 后,B、C最终会读 到A写入的数据

15、 A写入数据到存储系 统后,存储系统不能 够保证后续发起读操 作的B、C可以读到A 写入的数据示例示例 OLTP需要强一致性 OLAP需最终一致性 绝大多数应用不能够 容忍弱一致性集团公司网络部集团公司网络部数据存储方式行式存储与列式存储- 13 - 传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从传统关系型数据库主要采用行存储模式,海量数据的高效存储和访问要求引发了从 行存储模式向列存储模式的转变行存储模式向列存储模式的转变行存储行存储用户用户生日生日聊天记录聊天记录日均在线时长日均在线时长用户11981-10-3Xxxx yyyy.2用户21990-5-15Mm n

16、nn 3.7用户用户1 11981-1981- 10-310-3Xxxx Xxxx yyyy.yyyy.2 2用户用户2 21990-1990- 5-155-15Mm Mm nnnn n n 3.73.7列存储列存储用户用户11981-10-3用户用户21990-5-15用户用户1Xxxx yyyy 用户用户2Mm nnn 用户用户12用户用户23.7行存储行存储列存储列存储存储一行中各列一起存放, 单行集中存储一行中各列独立存 放,单列集中存储索引 效率海量数据索引既占用 大量空间,且索引效 率会随着数据增长越 来越低基于列自动索引, 海量数据查询效率 高,不产生额外存 储空间 效率同一行不同列数据类 型不同,压缩效率低 空值列依然占据空间列同数据类型,压 缩效率高 空值不占空间I/O查某列必须读出整行, I/O负荷高、速度慢只需读出某列数据, I/O低速度快结构表结构改变影响很大可随时动态增加列适用 场景数据写入后需要

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号