大数据平台架构及建设思路PPT课件.pptx

上传人:优*** 文档编号:127677805 上传时间:2020-04-04 格式:PPTX 页数:20 大小:1.80MB
返回 下载 相关 举报
大数据平台架构及建设思路PPT课件.pptx_第1页
第1页 / 共20页
大数据平台架构及建设思路PPT课件.pptx_第2页
第2页 / 共20页
大数据平台架构及建设思路PPT课件.pptx_第3页
第3页 / 共20页
大数据平台架构及建设思路PPT课件.pptx_第4页
第4页 / 共20页
大数据平台架构及建设思路PPT课件.pptx_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《大数据平台架构及建设思路PPT课件.pptx》由会员分享,可在线阅读,更多相关《大数据平台架构及建设思路PPT课件.pptx(20页珍藏版)》请在金锄头文库上搜索。

1、大数据平台架构及建设思路 2020 4 4中国移动通信集团设计院有限公司 三 中国移动大数据平台建设思路 二 主流技术比较 一 大数据介绍 目录 第1页 什么是大数据 大数据 是指其大小超出了典型数据库软件的采集 存储 管理和分析等能力的数据集 目前 大数据的一般范围是从几个TB到数个PB 麦肯锡无法在一定时间内用常规软件工具对其内容进行抓取 管理和处理的大量而复杂的数据集合 维基百科数量大 获取速度快或形态多样的数据 难以用传统关系型数据分析方法进行有效分析 或者需要大规模的水平扩展才能高效处理 美国国家标准技术研究院 NIST 体量大 快速和多样化的信息资产 需用高效率和创新型的信息技术加

2、以处理 以提高发现洞察 做出决策和优化流程的能力 Gartner公司 中国移动通信集团设计院有限公司 第2页 运营商对大数据的理解 网络数据 用户数据 应用数据的汇聚构成了我们的 大数据 这些结构化 非结构化的数据的处理和建模形成对用户 服务 资源 终端等对象的洞察 这些洞察与市场营销 网络运维等业务流程的衔接将会给公司带来新的价值 大数据具备Volume海量 Variety多样 Velocity快速 Value价值的特点 据Ericsson预测 到2018年 每个手机终端每个月将产生2G的数据 EricssonMobilityReport 2013年 传统商业智能 大数据1 大数据2 批处理

3、 事先定义的查询和模型 非结构化的数据 包括互联网日志 web文本信息 非实时或准实时 流处理 实时的内容智能感知 策略执行 连续更新 价值 实时性 采集 建模和应用 数据处理实时性与价值呈正比 中国移动通信集团设计院有限公司 第3页 中国移动数据分布 B域 B域数据以客户关系 用户行为 产品信息等为主 支撑客户经营和产品营销等 O域 O域数据以设备数据 告警信息和性能信息等为主 支撑网络监控 网络优化 用户投诉处理等 M域 M域数据以财务 人力资源 供应链和办公信息等为主 支撑企业管理 企业办公信息化等 DPI数据域 DPI数据域以上网日志 内容构成 用户轨迹 网络信令等为主 可支撑流量经营

4、 网络运维和增值服务等 业务平台 九大业务基地 基地数据以用户信息 用户行为信息等为主 可支撑个性化推荐 优化产品和服务等 WAP 短彩信 存储网络日志 可支撑定位网络及终端问题 中国移动通信集团设计院有限公司 第4页 运营商大数据运用 对内 客户上网数据处理 网页爬取和网页分类 分析挖掘客户上网行为详单查询 上网日志查询流量分析 客户视图 精准营销网络运维优化对外 与航空公司合作 建立乘机客户识别模型 提供大数据挖掘 客户发展全流程大数据信息服务 提供针对性的营销方案与交通运输部 省高速公路合作 开展 基于移动大数据分析在交通行业中的应用 研究项目利用通信信令实时分析景区人流量 结合游客的行

5、为数据挖掘 为旅游管理部门 景区提供数据的决策参考以客户授权为依据 发挥移动客户实名数据优势 为互联网金融提供客户信息验真服务与外部客户合作在手机冲浪平台实施移动广告精准投放 目前主要的电信运营商都已积极探索开发其内部大数据资源 但从目前的应用发展看 电信运营商的大数据仍主要用于内部服务的 如支持内部的客户流失分析 营销分析和网络优化分析等 对外的应用模式尚未成型 部分电信运营商开始尝试通过给第三方提供数据产品和服务 进行数据的增值 中国移动通信集团设计院有限公司 第5页 三 中国移动大数据平台建设思路 二 主流技术比较 一 大数据介绍 目录 第6页 大数据具备数据量大 数据类型多 数据处理速

6、度要求高和价值密度低的特点 传统分析系统架构 RDBMS 小型机 高端阵列模式 下 传统数据库无法支撑海量数据 如100TB以上 性能下降 非结构化数据 现有IOE的架构无法线性扩展且成本高昂 大数据处理技术 大数据对传统数据处理技术体系提出挑战 大数据处理技术 OldSQL 传统关系型数据库NewSQL 新型MPP数据库 关系型数据库NoSQL 泛指非关系型的数据库Hadoop 对大量数据进行分布式存储和处理的软件框架 中国移动通信集团设计院有限公司 第7页 大数据三大技术比较 面对海量种类繁多的数据进行实时数据分析和离线数据分析 仅有传统的数据库技术已不适用 需要针对不同数据场景选择不同技

7、术手段 MPP数据库 适合结构化数据的深度分析 复杂查询以及多变的自助分析类应用 数据集市等 Hadoop 适合海量数据存储查询 详单存储和查询 批量数据ETL 非结构化数据分析 日志分析 文本分析 等 传统数据库 在复杂关联 汇总 事务处理方面能力强 适合数据量小 高可靠 数据价值密度高的应用 中国移动通信集团设计院有限公司 第8页 中国移动大数据目标架构 数据处理层 数据存储 数据计算 数据共享 基础数据资源池 HADOOP Map Reduce2 HIVE Hbase HDFS 分析数据资源池 MPP 分布式关系数据仓库 SPARK Shark YARN 统一调度 流处理资源池 分布式内

8、存数据库 实时行为识别 复杂事件处理框架 实时模型计算 任务调度 资源管理 统一作业 数据管理 元数据管理 数据质量管理 经分数据模型计算 网络数据模型计算 管理分析模型计算 数据调度 Hadoop平台软件部署于Hadoop大数据处理集群 实现海量非结构化数据存储与处理以及结构化数据的垂直汇总 在当前数据种类繁多 数据处理复杂的情形下 不适合采用一种的单一的技术解决全部问题 大数据平台据需要采用Hadoop资源池 MPP数据库 流处理资源池混搭大数据技术架构 数据平台基于MPP Hadoop 流处理等云计算 大数据技术 流数据与复杂事件处理 CEP 规则引擎平台用于对数据流进行实时处理 实现对

9、高速数据流的接入与实时处理 实时探测关键事件 MPP数据库用于结构化数据的关联分析 一体机资源池 DW OLAP应用 DW数据库用于分析处理统计分析类OLAP应用 中国移动通信集团设计院有限公司 第9页 三 中国移动大数据平台建设思路 二 主流技术比较 一 大数据介绍 目录 第10页 建设思路 由易到难 稳步推进 初期以数据整合为主 逐步面向内外提供数据服务 管控架构 同步推进 同步推动数据标准化和组织机构变革 为大数据共享平台商用奠定基础 自主掌控 能力内化 逐步培养自研团队 构建研发运营一体化能力 第11页 中国移动大数据平台架构 企业级省大数据平台的技术架构包括数据采集 数据存储与计算层

10、 开发框架和应用中心四层 同时包括统一运维管理为各类使用人员提供服务 在大数据技术架构中数据的存储和计算是紧密相连的 第12页 建设重点1 与其他分析型平台关系 大数据共享平台 全网XDR数据采集 标准化 全量存储 1个月 全网网管数据采集 标准化 全量存储大数据共享平台实现负责xDR数据和网管数据的统一集中采集和预处理 提供上层应用对xDR细粒度数据的查询响应 按应用需求进行多维度小粒度汇总 数据整合 存储提供明细数据查询 轻度汇总数据查询 性能管理系统 从大数据共享平台获取应用所需全量小时汇总数据 数据缓存层 负责对来自于大数据共享平台的数据进行深入处理和缓存 为应用层提供各种汇总数据存储

11、 处理与共享 以及综合分析与深度挖掘 应用层 承载上层各类应用软件和第三方应用 实现上层应用 第13页 第14页 2G 3G 4G WLAN Network Dataacquisition Dataparsing Datastorage Application E1Interface SignalingParsing DPIProcessing TrafficIdentify CDRFusion ATMInterface FE GEInterface Datastorageanddataserviceforeachapplicationsystem PerformanceAnalysis Be

12、haviorAnalysis DataOperation IndustryApplication 建设重点2 制定数据治理规则 数据治理方法 第15页 建设重点3 HADOOP服务器测算模型 模型搭建 根据HDFS存储容量能力计算 主要分为两个方面 一是某一体量的数据在采用不同的数据处理技术时 它所需要的物理存储容量 即磁盘裸容量的理论计算 二是针对配置一定情况下 X86服务器在承载不同的数据处理技术实体时 该X86服务器能够提供的有效存储容量 最终得出某一体量的数据在采用不同的数据处理技术时所需要配置的X86服务器数量 物理存储容量 X86服务器能够提供的有效存储容量 HDFS存储能力需求计

13、算模型 按此模型共需要130 30 4 5台X86服务器 中国移动通信集团设计院有限公司 第16页 1 HADOOP集群互联带宽需求 跨机房 点对点的带宽 机房间互联带宽 节点数Hadoop集群的NameNode节点不支持跨机房部署 DataNode节点跨机房部署时 机房间的互联电路为关键电路 承载两机房间各数据节点间通信 若互联电路故障时 则会导致集群不可用 结论 1 HADOOP集群采用单局点部署 可保证集群正常工作 通信效率高 2 HADOOP集群采用多局点部署 为减少通信延迟 必须保证集群节点间传输带宽 按本期集群228个节点测算 需要互联链路300G 有保护链路 传输需要投资约100

14、0万元 综合考虑 建议大数据平台采用单局点部署 建设重点4 HADOOP集群对局址的选择1 2 中国移动通信集团设计院有限公司 第17页 2 HADOOP集群互联延迟需求 为保证数据节点间数据同步 HADOOP集群内节点间延迟要求小于1毫秒 业界公认指标 若延迟大于1毫秒 会出现数据同步出错情形 HADOOP集群单机房部署时节点间通信延迟约为216微秒 HADOOP集群跨机房部署时 以纬五路与淮南IDC机房为例 节点间的通信延迟约为1581微秒 不能满足数据同步要求 结论 1 HADOOP集群节点跨局点部署 节点间距离不超过130公里 与单局点部署相比 HADOOP集群都能正常工作 但单机房部署时节点间通信效率高 2 跨局点部署 节点间距离超过130公里 时 节点间时延不能满足数据同步需求 HADOOP集群不能正常工作 3 综合以上分析 HADOOP集群单机房部署时 点对点间的通信通过本地交换机进行交互 带宽均可达到1Gbps 延迟不大于1毫秒 建设重点4 HADOOP集群对局址的选择2 2 中国移动通信集团设计院有限公司 第18页 谢谢 2020 4 4 第19页

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号