电信运营商大数据平台规划方案汇报材料

资源描述

《电信运营商大数据平台规划方案汇报材料》由会员分享，可在线阅读，更多相关《电信运营商大数据平台规划方案汇报材料（23页珍藏版）》请在金锄头文库上搜索。

1、电信运营商大数据平台规划方案汇报,目录,二、大数据平台整体规划,一、大数据应用发展趋势,大数据,大数据对电信运营商的应用价值体现,数据平台现状,经过一二期的建设，精细化运营平台的数据中心，已经成为最大、内容最丰富的数据仓库；随着数据量的增长，需要对基础架构做长远规划；有必要深入挖掘数据价值，研究新的商业模式，将成本中心转化为利润中心,5,大数据处理的需求和特点,低成本运营,一体化运营,精细化运营,全网运营,实时、智能化运营,集中化建设、管理和维护可不断线性扩展提高资源综合利用率标准化功能组件，可共享可复用按业务量、按需支付,BASS与BOSS、CRM的一体化 BSS与MSS、OS

2、S、VAS等跨域一体化对外部客户和应用的一体化,片区化、网格化管理长尾市场、小众市场的支撑个性化、短周期需求的满足,异地客户、家庭客户、集团客户一点接入、全网服务、全网客户画像全国统一套餐、全网营销、统一客服,实时数据获取、处理、分析智能化主动事件触发智能管道移动互联网,业务运营发展趋势,对业务支撑平台的集中化要求,对数据架构的集中化要求,集中化、大容量、高扩展、高可用数据库平台：支持全网型数据、跨域数据的整合，形成集中化管理的的企业级数据中心高性能：支持3G时代更高的实时性要求、支持动态资源共享：支持多租户管理、资源动态按需供应可重用、标准化组件：形成可重用组件，支持一次开

3、发、各省共享的模式，形成规模型效益,数据集中化趋势使得运营商面临着海量数据的存储及分析问题，大数据在支撑移动业务发展趋势中，充当重要角色。,电信运营商数据集中化趋势,7,电信运营面临的大数据挑战,移动互联网和个人消费领域业务扩展和CEM导致海量数据的及时分析带来挑战,运营商一体化集中运营和透明管控，催生巨大的经营分析数据仓库，对大数据的存储、性能、开放带来挑战,DPI和信令监测，产生的大量事件在存储和用户通信行为分析的实时处理性能带来挑战,ICT融合，核心网络、运营支撑和VAS业务数据的融合催生海量User Profile并集，对大数据的关联分析计算效能带来挑战,移动互联网流量井喷与客户行为分

4、析,业务融合、能力互通带来数据融合,提升客户体验要求分析网络服务数据,IT系统集中化和行业数据价值挖掘,BSS BI数据：河南17个地市，每天抽取正常用户数7000多万，拨备用户数3000多万，DW层用户表总量1亿多条；语音清单每天2.7亿条数据，GPRS清单每天4.2亿条数据；账务每天4.7亿条数据；GPRS文件每个100M左右，其它文件25M。日接口数据量：2000G，其中话单 220G，WAP清单 300G ，工单服务 200G ，用户、帐务 300G，其它980G。每月124TB数据量入库，历史数据保留1年，总数据量1.45PB。按照用户数简单测算, 6.5亿用户下，总数据

5、量 10PB!,总部3G互联网访问记录查询及分析系统：全国每日新增10TB数据，每月近万亿条记录，要存放6个月，约 2PB的上网记录数据。上网记录入库时间小于30分钟，原始上网记录保留6个月。上网查询速度不高于1秒，并发查询数1000请求/秒。集群规模188个数据节点，存储容量2.6 PB,传统数据仓库无法有效存储日益增长的业务数据存储需求,基础数据（用户资料，产品订购信息）： 15G/日*365+40G *12月 = 5T/年考虑20%的业务增长率后为： 6T/年,用户上网数据话单数据：250T/年考虑20%的业务增长率后为：300T/年,MR数据话单数据：634G/日 634

6、G/日*365 = 227T/年考虑20%的业务增长率后为：272T/年,BSS数据,新增,新增,评估中,随着业务发展数据量的增加，随着应用复杂导致的数据量增加，这些数据量导致了数据存储和处理压力；数据仓库无法线性扩容，管理难度加大，成本高扩容压力大，效率下降等传统数据仓库只保存处理后的汇总数据。在大数据架构下需要对用户原始话单进行长期保存。需要扩容大量存储空间。,大数据使得现有的数据处理方法面临新问题,面对海量的数据压力，需要大数据平台提供可供线性扩容的存储能力。,每个应用需求的变化就是一场灾难。由于数据处理与业务的紧密关联可能需要对中间每个处理环节进行逐个调整。重新生成数据的周期也非常

7、缓慢。,由于传统数据仓库的数据处理流程与业务保持紧密关联。整个数据加工流程为最终应用服务。为缓解存储压力在数据抽取和清洗阶段会过滤掉与业务无关的数据记录和字段。,大数据使得现有的数据处理方法面临新问题,数据源,明细数据层（DW）,汇总层（MK）,报表数据,标签库,指标数据,客户统一视图,应用层,DW&MK,操作型数据,ODS层,Oracle数据库,精细化营销架构,2,4,1,2,3,4,现网数据平台是传统关系型数据库架构。大量的用户上网、用户行为等半结构化和非结构化数据无法保存和处理，缺乏非结构化数据的处理能力。用户上网行为等互联网行为数据以结构化数据方式保存至数据仓库中。,传统数据仓库无法

8、有效应对大数据分析需求,1,现网每日用户上网HTTP话单达14亿条。每月汇总的记录条数也近30亿条。随着移动互联网正在迅猛增长，传统数据仓库将很难驾驭，无法满足数据处理时限和事务处理需求。,3,面对海量的数据压力，需要大数据平台提供快速的处理能力。,大数据使得现有的数据处理方法面临新问题,传统数据仓库组网将是大数据分析的瓶颈,现网精细化营销平台的数据库既存放着所有采集的原始数据，又承担所有的数据加工任务，还承载所有报表和业务应用的数据存储和计算。缺乏对数据分层分级及生命周期的有效管理。系统核心架构为Oracle数据库+小型机+磁阵。数据存放在磁阵上，计算时由数据库服务器从磁阵读到本地后进行计

9、算结果。随着数据量增长，磁盘I/O、网络带宽、数据库服务器的处理能力将存在瓶颈，处理时延严重。由于传统架构的可扩展性差，无法满足大数据的计算的扩容需求。,为应对海量数据处理需求，大数据将从集中数据库向分布式数据库进行转变。计算和存储资源都由x86服务器提供。,因为在移动互联网和物联网上需要有新领域的突破，不同于传统通信业务分析特点，需要对内容等非结构化、大容量信息进行有效分析，传统的架构处理吃力。,关系数据库引入对XML 的支持仍然无法有效处理,ETL,大数据使得现有的数据处理方法面临新问题,传统数据仓库无法有效处理新型的业务数据,传统数据仓库无法有效支撑数据合作运营,由于保存原始话单数据周期

10、较短，合作运营无法追溯历史原始数据。现网传统主数据库的设计只适用与向上层提供既定好的数据分析任务结果。对外开放底层数据将大大消耗系统资源，影响主库正常的数据处理流程。同时数据的处理方式及结果也恐难以满足合作运营的需要。大数据平台的架构将数据分层管理。在各层提供数据开放接口，以满足不同数据需求。将更有效支撑数据合作运营。同时历时数据能促使合作在第一时间就开展起来。,目录,二、大数据平台整体规划,一、大数据应用发展趋势,大数据平台目标架构及定位,准实时采集,批量采集,Hadoop平台,MPP，基于X86平台,主数据仓库,分布式数据库,基于X86平台,数据采集（云化ETL，流数据处理、爬虫）,

11、数据层,获取层,能力层,精细化营销,智能运营,物联网应用,应用商店,客服应用,基础分析能力,数据挖掘能力,实时分析能力,自助分析能力,多维分析能力,数据共享能力,指标应用,报表应用,主题分析,专题分析,互联网,GN口,半结构化、非结构化数据,BSS,经分,DM,VAC,MC话单,业务平台,结构化数据,数据源,分布式文件系统 HDFS,记录明细数据,HBase,M/R,Hive,记录汇总数据,数据统一服务和开放SQL、FTP、WS、MDX、API、,分布式数据库（MPP）：存储加工、关联、汇总后的业务数据，并提供分布式计算，支撑数据深度分析和数据挖掘能力，向主数据仓库输出KPI和高度汇总数据。

12、主数据仓库（与MPP合设）：存储指标数据、KPI数据和高度汇总数据。,Hadoop云平台：负责存储海量的流量话单数据，提供并行的计算和非结构化数据的处理能力，实现低成本的存储和低时延、高并发的查询能力。,数据开放接口：向大数据应用方提供大数据平台的能力。,数据采集（ETL）：负责源数据的采集、清洗、转换和加载包括： 1、把原始数据加载到Hadoop平台。 2、把加工后的数据加载分布式数据库和主数据仓库,应用层,HDFS：分布式文件系统有较强的容错性可在x86平台上运行，减少总体成本可扩展，能构建大规模的应用 HBase：非结构化NoSQl分布式数据库基于分布式文件系统HDFS

13、，保证数据安全列式存储，节省存储空间提供大数据量的高速读写操作 Hive：分布式关系型数据库数据可保存在HDFS，可提供海量的数据存储类SQL的查询语句，提供大数据的统计和分析操作，适合海量数据的批处理通过MapReduce实现大规划并行计算 MapReduce：大规划并行计算引擎可将任务分布并行运行在一个集群服务器中,Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源， Hadoop集群可以扩展到上千台服务器。同时，Hadoop在设计时充分考虑了硬件设备的不可靠因素，在软件层面提供数据和计算的高可靠保证。,大数据平台： Hadoop主要功能,H

14、Base,MapReduce,Hive,HDFS,快速的数据读取,大数据存储统计,复杂计算并行处理,Shared Nothing,代表数据库：GreenPlum、Vertica、Teradata,适合大数据量的OLAP应用,新型MPP数据库主要构建在x86平台上，为无共享架构（Share Nothing），依靠软件架构上的创新和数据多副本机制，实现系统的高可用性和可扩展性。负责深度分析、复杂查询、KPI计算、数据挖掘以及多变的自助分析应用等，支持PB级的数据存储。,大数据平台：分布式数据库,新型MPP分布式数据库基于开放平台x86服务器大规模的并发处理能力无单点故障，可线性扩展多副本

15、机制保证数据安全支撑PB级的数据量支持SQL，开放灵活,数据分级存储原则,数据融合与分级存储实施,按数据血缘,按逻辑层次,按业务种类,按设备网络划分,按设备物理地址,在线、近线、离线,按访问频度,内存数据库,按响应及时性,内存数据库,数据生命周期中在线数据对高性能存储的需求，以及随着数据生命周期的变更，逐渐向一般性能存储的迁移，是分级存储管理的一条主线。同时兼顾考虑其他分级原则，共同作用影响数据迁移机制。,基于生命周期,基于访问压力,基于业务用途,基于物理属性,分级原则,高性能磁盘库,磁带光盘库,中低性能磁盘库,将核心模型（即中度汇总的模型）通过改造融入到现有主数据仓库的核心模型中

16、，减少数据冗余，提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库，减轻主数据仓库的计算与存储压力并支撑深度数据分析。,数据,数据,数据,1、核心模型融入主数据仓库,主数据仓库,2、历史数据迁移到分布式数据库,分布式数据库,1、清单数据入MPP数据库,大数据平台：数据分级存储,Hadoop平台,主数据仓库,报表数据,标签库,指标数据,客户统一视图,信息子层,话单数据,非结构化数据,信息子层：报表数据、多维数据、指标库等数据来源于汇总层。汇总层：主题域之间进行关联、汇总计算。汇总数据服务于信息子层，目的是为了节约信息子层数据计算成本和计算时间。,轻度汇总层：主题域内部基于明细层数据，进行多维度的、用户级的汇总。明细数据层：主题域内部进行拆分、关联。是对ODS操作型数据按照主题域划分规则进行的拆分及合并,ODS层：数据来源于各生产系统，通过ETL工具对接口文件数据进行编码替换和数据清洗转换，不做关联操作。未来也可用于准实时数据查询。,

展开阅读全文