移动集团大数据平台架构及建设思路讲述

上传人:最**** 文档编号:117962397 上传时间:2019-12-11 格式:PPTX 页数:19 大小:1.80MB
返回 下载 相关 举报
移动集团大数据平台架构及建设思路讲述_第1页
第1页 / 共19页
移动集团大数据平台架构及建设思路讲述_第2页
第2页 / 共19页
移动集团大数据平台架构及建设思路讲述_第3页
第3页 / 共19页
移动集团大数据平台架构及建设思路讲述_第4页
第4页 / 共19页
移动集团大数据平台架构及建设思路讲述_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《移动集团大数据平台架构及建设思路讲述》由会员分享,可在线阅读,更多相关《移动集团大数据平台架构及建设思路讲述(19页珍藏版)》请在金锄头文库上搜索。

1、做国内最佳、创国际一流的通信咨询设计企业 大数据平台架构及建设思路 2016/4/15 中国移动通信集团设计院有限公司 -1- 三、中国移动大数据平台建设思路 二、主流技术比较 一一、大数据介绍、大数据介绍 目目 录录 -2- 什么是大数据 “大数据”是指其大小超出了典型数据库软件的采集、存储、管理和分析等能力的 数据集。目前,大数据的一般范围是从几个TB到数个PB。 麦肯锡 无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的大量而复杂的 数据集合。 维基百科 数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效 分析,或者需要大规模的水平扩展才能高效处理。 美国

2、国家标准技术研究院(NIST) 体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以 提高发现洞察、做出决策和优化流程的能力。 Gartner公司 -3- 运营商对大数据的理解 网络数据、用户数据、应用数据的汇聚构成了我们的“大数据”。这些结构化、非结构化 的数据的处理和建模形成对用户、服务、资源、终端等对象的洞察。这些洞察与市场营销、网 络运维等业务流程的衔接将会给公司带来新的价值。 大数据具备Volume 海量、 Variety 多样、 Velocity 快速、Value 价值的特点。据Ericsson预测,到 2018年,每个手机终端每个月将产生2G的数据。(Eric

3、sson Mobility Report,2013年) 改善市场 运营效率 结构化数据处理非结构化数据处理 网络数据 话单XDR 性能监测 故障监测 网络资源 用户数据 HSS信息 BSS数据 OSS数据 终端 应用数据 内容DPI Web Social media APPS 洞察:用户/服务/资源/终端/. 提升网络 运维效率 改善客户 满意度 创新商业 模式 数 据 采 集 建 模 分 析 运 营 改 进 传统商业智能 大数据1 大数据2 批处理,事先定 义的查询和模型 非结构化的数据 ,包括互联网日 志、web文本信 息,非实时或准实 时 流处理,实时 的内容智能感 知,策略执行 ,连续

4、更新 价值 实时性 采集、建模和应用 数据处理实时性与价值呈正比 -4- 中国移动数据分布 B域 B域数据以客户关系、用户行为、产品信息等为主,支撑客户经营和产品营销 等 O域 O域数据以设备数据、告警信息和性能信息等为主,支撑网络监控、网络优 化、用户投诉处理等 M域 M域数据以财务、人力资源、供应链和办公信息等为主,支撑企业管理、企 业办公信息化等 DPI数据域 DPI数据域以上网日志、内容构成、用户轨迹、网络信令等为主,可支撑流量 经营、网络运维和增值服务等 业务平台 九大业务基地:基地数据以用户信息、用户行为信息等为主,可支撑个性化 推荐、优化产品和服务等。WAP/短彩信:存储网络日志

5、,可支撑定位网络及 终端问题。 -5- 运营商大数据运用 p对内: p客户上网数据处理、网页爬取和网页分类、分析挖掘客户上网行为 p详单查询、上网日志查询 p流量分析、客户视图、精准营销 p网络运维优化 p对外: p与航空公司合作,建立乘机客户识别模型,提供大数据挖掘、客户发展全流程大数据信 息服务,提供针对性的营销方案 p与交通运输部、省高速公路合作,开展“基于移动大数据分析在交通行业中的应用”研 究项目 p利用通信信令实时分析景区人流量,结合游客的行为数据挖掘,为旅游管理部门、景区 提供数据的决策参考 p以客户授权为依据,发挥移动客户实名数据优势,为互联网金融提供客户信息验真服务 p与外部

6、客户合作在手机冲浪平台实施移动广告精准投放 目前主要的电信运营商都已积极探索开发其内部大数据资源。但从目前的应用发展看,电信运 营商的大数据仍主要用于内部服务的,如支持内部的客户流失分析、营销分析和网络优化分析 等,对外的应用模式尚未成型,部分电信运营商开始尝试通过给第三方提供数据产品和服务, 进行数据的增值。 -6- 三、中国移动大数据平台建设思路 二二、主流技术比较、主流技术比较 一、大数据介绍 目目 录录 -7- 大数据具备数据量大、数据类型多、数据处理速度要求高和价值密度低的特点,传统分析系统 架构(RDBMS +小型机+ 高端阵列模式)下,传统数据库无法支撑海量数据(如100TB以上

7、,性能下降 )、非结构化数据,现有IOE的架构无法线性扩展且成本高昂。 大数据处理技术 大数据对传统数据处理技术体系提出挑战 大数据处理技术 OldSQL :传统关系型数据库 NewSQL:新型MPP数据库,关系型数 据库 NoSQL:泛指非关系型的数据库 Hadoop:对大量数据进行分布式存储 和处理的软件框架 -8- 大数据三大技术比较 面对海量种类繁多的数据进行实时数据分析和离线数据分析,仅有传统的数据库技术已不适 用,需要针对不同数据场景选择不同技术手段。 MPP数据库:适合结构化数据的深度分析、复杂查询以及多变的自助分析类应用、数据集市等。 Hadoop :适合海量数据存储查询(详单

8、存储和查询)、批量数据ETL、非结构化数据分析(日志分 析、文本分析)等。 传统数据库:在复杂关联、汇总、事务处理方面能力强,适合数据量小、高可靠、数据价值密度 高的应用。 -9- 中国移动大数据目标架构 数据处理层(数据存储、数据计算、数据共享) 基础数据资源池(HADOOP) Map/Reduce2 HIVEHbase HDFS 分析数据资源池 (MPP) 分布式关系 数据仓库 SPARK Shark YARN 统一调 度 流处理资源池 分布式 内存数据库 实时行为识别 复杂事件处理 框架 实时模型计算 任 务 调 度 资 源 管 理 统 一 作 业 数据 管理 元数 据管 理 数据 质量

9、 管理 经分数 据模型 计算 网络数 据模型 计算 管理分 析模型 计算 数 据 调 度 Hadoop平台软件部署于 Hadoop大数据处理集群, 实现海量非结构化数据存储 与处理以及结构化数据的垂 直汇总。 在当前数据种类繁多、数据处理复杂的情形下,不适合采用一种的单一的技术解决全部问题,大数据 平台据需要采用Hadoop资源池、MPP数据库、流处理资源池混搭大数据技术架构 数据平台基于MPP、 Hadoop、流处理等云计 算、大数据技术 流数据与复杂事件处理(CEP )规则引擎平台用于对数据流 进行实时处理,实现对高速数 据流的接入与实时处理,实时 探测关键事件 MPP数据库用于结构化数

10、据的关联分析。 一体机资源池 (DW) OLAP应用 DW数据库用于分析处理 统计分析类OLAP应用 -10- 三三、中国移动大数据平台建设思路、中国移动大数据平台建设思路 二、主流技术比较 一、大数据介绍 目目 录录 -11- 建设思路 由易到难,稳步推进:初期以数据整合为主,逐步面向内外提供数据服务。 管控架构,同步推进:同步推动数据标准化和组织机构变革,为大数据共享平台商 用奠定基础。 自主掌控,能力内化:逐步培养自研团队,构建研发运营一体化能力。 -12- 中国移动大数据平台架构 企业级省大数据平台的技术架构包括数据采集、数据存储与计算层、开发框架和 应用中心四层,同时包括统一运维管理

11、为各类使用人员提供服务。在大数据技术 架构中数据的存储和计算是紧密相连的。 -13- 建设重点1与其他分析型平台关系 p大数据共享平台: 全网XDR数据采集、标准化、全 量存储(1个月) 全网网管数据采集、标准化、全量 存储 大数据共享平台实现负责xDR数据 和网管数据的统一集中采集和预处理 ;提供上层应用对xDR细粒度数据的 查询响应。 按应用需求进行多维度小粒度汇 总、数据整合、存储 提供明细数据查询、轻度汇总数据 查询。 p性能管理系统: 从大数据共享平台获取应用所需全 量小时汇总数据。 数据缓存层:负责对来自于大数据 共享平台的数据进行深入处理和缓存 ;为应用层提供各种汇总数据存储、

12、处理与共享,以及综合分析与深度挖 掘。 应用层:承载上层各类应用软件和 第三方应用,实现上层应用。 -14- 建设重点2制定数据治理规则 规范约束 构建基础 提升改进 数据评估 数据盘点 数据治理 制定安全流程 系统间数据流 数据统一视图 数据字典 数据标准评估 数据安全评估 统一数据标准 数据实体 典型问题分析与 改进建议 强化治理组织 完善数据质量 数据质量评估 数 据 治 理 方 法 按照规则从数据源直接采集,避免重复采集数据。 对于现有系统已采集的数据,发掘沉默数据的剩余价值。 对于现有系统未采集的数据,增加采集点并发掘数据价值。 采集后的数据存储,遵照各域属地化存储原则,各域的数据仓

13、库是公共仓库,全公司 共享使用。 按照规则进行数据统一清洗,清洗后根据不同专业应用需求,进行数据分发和权限控 制。 对于数据缺失不能满足应用需求的,要么修改数据清洗规则,要么重新采集数据。 从各域共享数据和标签组合中,探索大数据对内对外的应用场景和未知价值。 数据采集 规则 数据应用 规则 -15- 建设重点3HADOOP服务器测算模型 模型搭建:根据HDFS存储容量能力计算,主要分为两个方面: p一是某一体量的数据在采用不同的数据处理技术时,它所需要的物理存储容量、即磁盘裸容 量的理论计算; p二是针对配置一定情况下,X86服务器在承载不同的数据处理技术实体时,该X86服务器能 够提供的有效

14、存储容量。 p最终得出某一体量的数据在采用不同的数据处理技术时所需要配置的X86服务器数量=物理 存储容量X86服务器能够提供的有效存储容量。 HDFS存储能力需求计算模型 序号参数名称取值范围 取定值(TB ) 1原始存储数据量TB100 2副本数33 3索引率20%30%30% 4数据压缩率1/2/3/4/53 物理存储总容量 =1*2*(1+3)/4 130 序号参数名称取值范围 取定值( TB) 1单碟物理容量1TB4TB4 2有效存储碟数量12 3划盘损坏10%20%20% 4 HDFS生成日志所占空 间 8 5 单台服务器有效存储总 容量=1*2*34 30.4 按此模型共需要13

15、030.4=5台X86服务器。 -16- 1、HADOOP集群互联带宽需求: 跨机房:点对点的带宽机房间互联带宽/节点数 Hadoop集群的NameNode节点不支持跨机房部署,DataNode节点跨机房部署 时,机房间的互联电路为关键电路,承载两机房间各数据节点间通信。若互联电路 故障时,则会导致集群不可用。 D N D N D N D N D N D N NameNode机房1 机房2 机房间的带宽量将限制多节点间的传输带宽,如以 机房间电路10G、300节点计算,节点间带宽为: 10*1024/300 34Mbps 结论: 1、HADOOP集群采用单局点部署 ,可保证集群正常工作,通信效

16、率 高。 2、HADOOP集群采用多局点部署 ,为减少通信延迟,必须保证集群 节点间传输带宽,按本期集群228 个节点测算,需要互联链路300G( 有保护链路),传输需要投资约 1000万元。 综合考虑,建议大数据平台采用单 局点部署。 建设重点4HADOOP集群对局址的选择1/2 -17- 2、HADOOP集群互联延迟需求: 为保证数据节点间数据同步,HADOOP集群内节点间延迟要求小于1毫秒(业界公 认指标),若延迟大于1毫秒,会出现数据同步出错情形。 交互耗时 分类 单位耗时 (us) 数量 耗时小计 (us) 跨纬五路-淮南 IDC机房总耗时 (us) 单局点机房 总耗时(us) 端口128961581216 寻址304120 波分转发503150 光纤传输52431215 pHADOOP

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号