1323编号数据中心建设方案(简版)

上传人:玩*** 文档编号:146235998 上传时间:2020-09-28 格式:PDF 页数:51 大小:3.34MB
返回 下载 相关 举报
1323编号数据中心建设方案(简版)_第1页
第1页 / 共51页
1323编号数据中心建设方案(简版)_第2页
第2页 / 共51页
1323编号数据中心建设方案(简版)_第3页
第3页 / 共51页
1323编号数据中心建设方案(简版)_第4页
第4页 / 共51页
1323编号数据中心建设方案(简版)_第5页
第5页 / 共51页
点击查看更多>>
资源描述

《1323编号数据中心建设方案(简版)》由会员分享,可在线阅读,更多相关《1323编号数据中心建设方案(简版)(51页珍藏版)》请在金锄头文库上搜索。

1、技术建议书 第 1 页 共 51 页 企业数据中心系统平台企业数据中心系统平台 技术方案建议书技术方案建议书 技术建议书 i 技术建议书 第 2 页共 51 页 第第1章 总体建设方案章 总体建设方案 1.1总体建设思路1.1总体建设思路 图、数据中心构建思路图 按照对数据中心的理解,完整的数据中心应该具备 IT 基础设施(主机、存储、网络) 、 企业级 ETL 平台、数据存储中心、数据共享服务、应用层、统一门户、数据管控平台。 技术建议书 第 3 页共 51 页 1.2功能框架1.2功能框架 图、功能框架 系统功能框架分为企业级 ETL 平台、存储与计算中心、服务层、应用层、统一门户、 统一

2、平台管控。 企业级企业级 ETL 平台:平台: 负责企业数据中心数据采集、加工、汇总、分发的过程,完成企业级数据标准化、集中 化,实现数据脉络化、关系化,实现统一的数据处理加工,包括 : 非实时数据处理和实时数 据处理,提供数据抽取、数据转换、数据加载、数据汇总、数据分发、数据挖掘等能力。 存储与计算中心:存储与计算中心: 建立统一的数据中心数据模型,以及统一的数据存储与计算,具体提供关系数据库、分 布式非关系数据库、分布式文件、分布式计算,实现统一的数据存储与计算。 数据共享服务:数据共享服务: 技术建议书 第 4 页共 51 页 通过数据服务标准化开放访问,帮助企业 IT 建设中,应用和数

3、据分离,引入更多的应 用开发商,促进应用的百花齐放和应用的专业性 ; 基于标准化接口,实现对标签、客户视图、 指标等数据查询 API 封装,实现与周边系统实时互动,体现数据价值,减少数据冗余,保 证数据安全,保证数据的一致性。 应用层:应用层: 应用层的应用使用服务层提供的各种数据服务。 本期应用层包括 : 经分应用、 流量运营、 ESOP 应用、VGOP 应用、指标库、流量运营战略地图、掌上分析、自助业务分析、区域洞 察、渠道运营、自助分析、客户标签库、实时营销、LTE 互联网管控策略。 统一门户:统一门户: 提供统一域名分配、负载均衡、鉴权管理、统一管控平台接入、应用注册、应用发布、 应用

4、访问数据信息等功能,同时提供数据中心被应用访问的频次,被应用访问的数据范围, 提供数据资产的评估,为应用上下线和数据开放提供依据。 统一平台管控:统一平台管控: 面向开发人员、运维人员实现数据、应用、资源的统一管控,包括 : 数据资产管控、开 发管理、监控管理、调度管理、系统管理、安全管理。 1.3技术架构1.3技术架构 图、技术架构 技术建议书 第 5 页共 51 页 系统技术架构分为数据采集、计算存储服务、数据共享服务、平台管控。采用 Hadoop 云技术,可以满足计算能力线性扩展、多租户能力、数据汇总能力 ; 批处理场景采取 Hadoop 的 Map/Reduce、Hive 或者 Spa

5、rk 来完成;流式数据处理,采用 Esper 计算引擎实现。 数据采集:数据采集: 采用 Flume 计算框架,实现文件和消息采集与解析;采用流式爬虫、中文分词、图片 识别技术,实现互联网网页信息实时采集;采用 FTP 文件方式实现对数据文件的采集;采 用 Socket 消息方式实现对消息数据的采集;采用 sqoop 方式实现将数据库数据装载到 HDFS 文件系统。 计算存储服务:计算存储服务: 采用 Hadoop 中 HDFS 文件系统提供统一的大数据数据存储,满足全量数据留存;基于 Yarn 提供跨平台的资源管理,满足资源的统一调度与管理;采用 Hadoop 实现非实时 ETL, 实现海量

6、数据的批处理,主要处理 ODS 层-DWD 层-DW 层-ST 层的数据处理;视业务 数据情况部分 DW 层-ST 层的数据处理采用 Spark 计算框架实现;采用 Esper 和 rabbitmq 支撑流数据处理与复杂事件处理;利旧 DB2 提供 ST 层数据的存储与计算,支持高并发的 指标级数据共享。 数据共享:数据共享: 数据开放共享采用基于 HTTP 协议 REST 风格的 OpenAPI 完成同步处理与基于消息队 列(MQ)完成异步处理,实现类 SOA 面向服务的架构体系。支持 OAuth 提供一个安全的、 开放而又简易的授权协议。 数据共享服务部署在集群环境中以应对高并发的访问请求

7、, 并实 现集群的负载均衡。 统一平台管控:统一平台管控: 采用 Java EE 技术,通过 MVC 模式(Model View Controller,是模型视图控制器) 把业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到一个部件里面,在改 进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。 技术建议书 第 6 页共 51 页 1.4数据流图1.4数据流图 Mc 信令(实时)数据通过 Socket 消息适配模块接入至 Esper 计算引擎进行实时处理, 向应用提供事件 API 服务,支撑实时营销应用 ; 后期如 Gn 信令、LTE 信令也提供实时数据, 可满足基于 Gn

8、信令、LTE 信令的实时处理。 除 Mc 信令(实时)数据外,Gn 信令、Mc 信令、自有业务订购与使用行为等数据通过 非实时 ETL 方式装载到 Hadoop 的 HDFS 文件系统,实现全量数据留存;由 Hive 承担主库 的职能,实现海量数据的批处理,承载 ODS-DWD-DW-ST 各层数据处理,其中 DW 层 部分数据提供给 Spark,由 Spark 完成数据处理工作。 对外数据服务可以由不同种类的 API 来完成: 1、 针对诸如客户统一视图、客户标签库的数据探索查询服务:将数据加载到 Spark 的 RDD 中,通过 API 将数据共享出去; 2、 针对诸如客户标签信息查询、

9、客户详单查询类的数据查询服务 (特点是通过一个 Key 来查询数据):将数据加载到 Hbase 中,通过 API 将数据共享出去; 3、 针对诸如指标数据查询、KPI 数据查询服务(特点是高并发、多维度的数据查询) : 将数据加载到 DB2 数据库(利旧)中,通过 API 将数据共享出去; 4、 针对多租户的数据共享服务,详见 5.3 章节; 技术建议书 第 7 页共 51 页 第第2章 企业章 企业 ETL 数据处理平台数据处理平台 2.1 功能框架功能框架 根据数据中心的建设需求,企业级的 ETL 平台实现统一的数据采集、转换、加载、处理 以及统一调度、管控等功能。这里的 ETL 指的是广

10、义的 ETL,具备以下的特点: 统一数据获取接入,支持 B 域数据、M 域数据、O 域数据或其他外部数据统一接入 数据中心平台。 支持结构化和非结构化数据采集、加工;对非结构化数据要实现从非结构化到结构 化的处理过程。 支持数据采集、转换、加载等关键 ,.数据处理过程,实现企业数据的标准。 从周期上,支持批量的数据采集,实时的数据采集 满足数据中心数据加工,处理以及对外提供数据分发、同步 支持全过程的数据稽核。包括事前、事中、事后的稽核方式。以及灵活的稽核规则 管理,算法管理 全过程的可视化开发配置管理。通过可视化的开发配置,测试和部署上线。 全过程元数据管理。 重点要实现事前的元数据管理。

11、管理的内容包括 : 支持数据模型、 数据流程、转换规则、数据关系和转换映射规则。 企业级的企业级的 ETL 平台产品平台产品 DACP 可以很好支持上述的关键功能特点可以很好支持上述的关键功能特点。 技术建议书 第 8 页共 51 页 第第3章 数据存储层章 数据存储层 3.1 总体概述总体概述 Mc 信令(实时)数据通过 Socket 消息适配模块接入至 Esper 计算引擎进行实时处理, 向应用提供事件 API 服务,支撑实时营销应用 ; 后期如 Gn 信令、LTE 信令也提供实时数据, 可满足基于 Gn 信令、LTE 信令的实时处理。 除 Mc 信令(实时)数据外,Gn 信令、Mc 信令

12、、自有业务订购与使用行为等数据通过 非实时 ETL 方式装载到 Hadoop 的 HDFS 文件系统,实现全量数据留存;由 Hive 承担主库 的职能,实现海量数据的批处理,承载 ODS-DWD-DW-ST 各层数据处理,其中 DW 层 部分数据提供给 Spark,由 Spark 完成数据处理工作。 3.2 存储规划存储规划 HiveHbasedb2 ODS 层3+1 月3+1 月- 技术建议书 第 9 页共 51 页 DWD 层6+1 月- DW 层12+1 月- ST 层36 月-36 月 客户标签/视图3 月12+1 月- 指标3+1 月-永久 3.3 模型设计模型设计 数据模型设计按照

13、层次,主题的数据模型设计的思路。系统根据模型设计会自动转成 hadoop 上存储。层次、主题映射到相应的目录。 3.4 模型规范化管理模型规范化管理 3.4.1分层规范分层规范 依据数据仓库建模理论,结合实际经验,数据计算平台承载数据模型分为四层: ODS、DWD、DW 和 ST,即接口层、存储层、汇总层、应用层。 模型分层说明: 接口层:ODS 模型的数据结构与业务系统接口文件结构保持一致,接口层的数 技术建议书 第 10 页共 51 页 据在数据计算平台进行暂存。 存储层:即明细数据层,是数据计算核心层数据模型之一,用于存放由清洗、 转换层来的数据或者接口层直接来的数据,其设计目标是为后续

14、的汇总数据层和信 息子层提供数据基础。 汇总层:即轻度汇总数据层,也是数据计算核心层数据模型之一,该层实现对 主题内的数据做轻量汇总。设计目标是为应用层提供足够灵活、方便的基础数据, 并保证从该层获取数据是性能最优。 应用层:在汇总数据层之上,数据按照应用需求做数据聚合,生成相关应用所 需数据的数据层。应用数据层是面向应用的,但是也不是每个应用都在应用数据层 对应一个表,对应用要在数据应用层中进行整合。 3.4.2表命名规范表命名规范 OMG 标准化组织建议,采用 5 分段的命名规范:如下 3.4.3字段命名规范字段命名规范 建立字段的命名规范,并固化为 domain 类型,指导模型设计字段命

15、名。当有变更,可 以做到跨平台的统一建模。 技术建议书 第 11 页共 51 页 3.4.4模型版本管理模型版本管理 技术建议书 第 12 页共 51 页 第第4章 数据开放服务层章 数据开放服务层 4.1 建设目标建设目标 通过数据服务标准化开放访问,帮助企业 IT 建设中,应用和数据分离,引入更多 的应用开发商,促进应用的百花齐放和应用的专业性。 基于标准化接口,实现对标签、客户视图、指标等数据查询 API 封装,实现与周 边系统实时互动,体现数据价值,减少数据冗余,保证数据安全,保证数据的一致 性。 对于详单级数据,支持通过文件或授权的方式共享给周边系统。 通过统一的技术平台框架,制定企

16、业数据标准体系规范,基础数据采集处理,加工 汇总,可以引入多家厂商或多租户进行标准化开发。 要实现上述目标,需要解决的关键问题要实现上述目标,需要解决的关键问题: 1) 需要什么样平台功能? 2) 开放的对象。给谁开放? 3) 开放什么内容。包含两部分,基础数据的集成开发的开放和应用访问层数据开放。 4) 开放的安全保障机制 5) 如何保证开放对象开发提交的结果的规范化、质量。 6) 开放平台运营的组织结构和流程制度。 4.2 概述概述 要满足建设目标的要求,数据服务开放的整个功能框架如下: 技术建议书 第 13 页共 51 页 4.2.1开放对象开放对象 示例说明如下 开放对象说明使用形式相关数据 多租户通过授权的机制, 给租户开放通过 sql 查询数据能力,租户可以在此 基础上汇总加工自己私有的数据 SQL,进行 数据处理 在保障数据安全性、数据 可控性的前提下, 将 Hive 仓库的 ODS、 DWD、 DW 各层的开放授权给数据 处理开放给租户。 ESOP, VGOP 通过文件接口将数据分发给对端 系统,满足其数据分析需求

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 心得体会

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号