《集团企业大数据治理平台解决方案》由会员分享,可在线阅读,更多相关《集团企业大数据治理平台解决方案(91页珍藏版)》请在金锄头文库上搜索。
1、集团企业大数据治理平台解决方案 集团企业大数据分析平台建设目标 通过数据平台和BI应用建设,XXX大数据将搭建统一的大数据共享和分析平台,对各类业务进行前瞻性预测及分析,为集团企业各层次用户提供统一的决策分析支持,提升数据共享与流转能力 统一制定目标和分析模型 600%600%500%500%400%400%300%300%200%200%100%100%0%0%20042004年20052005年20062006年铁矿石铁矿石20072007年焦煤焦煤20082008年自定义报表工具 行列的简单定义方式 多种格式报表 BI 分析工具 云数据推送平台已实现了主要零售及金融业务系统数据清洗、整合
2、,为未来集团企业大数据数据平台提供了丰富的数据源。统一定义BI 应用 集团企业决策层 统一规划分析方法 统一划分分析主题 统一设计数据模式 统一部署技术基础 供应链XXX系统 POP系统 采购管理系统 集团企业职能管控层 外部非结构化数据 其他业务系统 各级业务操作层 Page 2 数据治理概述 目录 某集团数据现状及问题数据治理阶段目标 成效和特点 数据管理系统建设情况 第一部分 数据治理概述 数据治理意义、作用和价值 意义 是构建完善、共享、统一管理数据环境的基本保障和重要组成部分 是把数据作为资产来管理的有效手段 作用 确定了一系列岗位角色和相应的责任及管理流程 保证了业务数据在采集、集
3、中、转换、存储、应用整个过程中的完整性、准确性、一致性和时效性 价值 企业进行数据治理的最大驱动力来自数据质量,通过提高数据质量实现更多的业务价值 将实现业务目标作为数据管理和服务的核心驱动力,优化数据架构,提升数据仓库/信息化管理系统建设,支持管理能力的提高、精细化和决策的科学性 数据治理框架 数据战略 数据应用与服务 促进 数据服务管理 数据需求管理 数据服务 应用系统建设 实现 数据管理 数据架构 与 模型管理 支撑 数据标准管理 元数据 管理 数据质量管理 主数据 管理 数据保留与归档 管理 数据安全管理 内容管理 支撑 数据战略与规划 数据组织与职责 保障机制 数据制度与管理流程 数
4、据架构 数据源 内部数据 业务系统 数据结构化转换 数据交换平台 大数据分析计算 分布式数据库 分布式文件系统 外部数据 互联网 贴源层 数据平台 整合层 基础汇总层 数据平台 数据服务 数据集市 数据应用 统计报表 数据挖掘 高管驾驶舱 其他系统 大数据平台 数据接口 数据切分 数据调度与处理 数据生命周期管理 数据质量检核 数据传输 数据 管理 平台 物联网 元数据管理 数据平台建设原则 一、应用(需求)驱动主导数据平台的实现,加强业务的关注和参与 应用是展现数据总线建设效果的门户,因此需要建设业务人员最紧迫和最关注的需求和应用,让业务部门最快参与数据总线的建设当中。二、初期能够快速见效并
5、体现建设价值,不盲目投入 实施周期不易过长,规模不易过大,能够快速的见到数据总线带来的效果和价值。三、借鉴同业的成功经验和成果,选择成熟技术架构和解决方案 尽量参考同行业、同规模、同类型企业行的建设经验,适当创新。四、重视内部人员培养,建设配套运营制度和管理体系 前期让公司内 IT人员尽量更多、更深入的参与到数据总线的建设中,后期角色以管理为主,尽量与合作伙伴共同建设二期以上。配套的管理规范、技术规范、运营体系。第二部分 某集团数据现状及问题 数据应用现状分析-总体情况 业务职能不清晰或相互重叠,观察数据视角不尽相同,缺少数据标准与业务统一定义,语轨不一致 IT架构中中都是以部门级应用为主(如
6、计财、资金计划部等),缺乏从大的管理职能(财务、风险、运营等)综合方面的数据整合、数据标准和统一业务定义 客户信息 客户信息 行领导 贷款余额 客户信息 贷款余额 客户信息 .客户信息 .业务人员 财务会计部 信贷管理部 国际业务部 资金计划部.X567 综合报表平台 数据交换平台 综合业务系统 信贷管理 国际业务系统 债券管理系统 数据应用现状分析-数据架构方面 由于全行的数据散落在各个业务系统中,没有进行有效整合,形成竖井式架构,造成多个信息孤岛,整体架构缺少一个稳定的、抗源变化的保存最细粒度历史数据的数据层。无法支撑未来共享性应用。业务表现 信息孤岛 数据冗余 共享性差 竖井式架构,造成
7、信息孤岛 其它 报表 绩效考核 客户管理 客户 风险 报表 缺少一个稳定的、抗源变化的数据层 客户 一部 报表 中间 业务 报表 支付 报表 客户风险 客户一部 中间业务 支付业务 历史数据缺失 主题层 报表应用共用 主题数据 集市层 问题 数据分散,难以管理 汇总数据层 ODS层 BDS层 DEP层 源系统 综合业务 信贷管理 没有一个稳定的,抗源变化的数据层 没有进行整合,无法共享,不能支持如客户管理等共享性应用 国际结算 债券核算 数据应用现状分析-数据应用难题 客户风险集市 缺少统一的应用分析标准 业务表现 各集市系统指标存在重复 各集市系统在保有存量的同时,不断产生新的指标(增量)集
8、市指标派生无法实现 指标逻辑视图(指标分类)不一致 借据号 期末余额 主营业务收入 负债总额 。我想看本期贷款余额,看哪个呢 客户一部集市 用户 借据编号 期末贷款余额 总资产 。我想看客户经营情况信息,有哪些呢 问题 重复投入 数据不一致 用户 资金计划部 指标设计、口径不一致 指标难以共享 活期存款指标数据怎么不一致呢 数据应用现状分析-数据应用难题 缺少统一的基础数据标准 业务表现 各系统存在冗余数据 各系统存在业务含义一致,名称定义不一致的属性 各系统存在含义不一致,名称定义一致的情况 业务代码定义混乱 相同业务代码定义不一致 核心贷款分户账表 业务含义一致,名称定义不一致 贷款主档代
9、码 贷款余额 五级分类标志 计息方式 。数据冗余 问题 重复投入 信贷管理借据表 数据不一致、不准确 难以利用和管理 各系统数据难以共享 核心五级分类代码 贷款账号 贷款余额 5级分类标志 借据计息周期 。信贷管理五级分类代码 01 正常 02 关注 03 次级 04 可疑 05 损失 1 正常 2 关注 3 次级(不良)4 可疑(不良)5 损失(不良)数据应用现状分析-数据质量方面 没有归纳并总结数据质量问题,缺少反馈机制,导致长期存在各类数据质量问题。业务表现 指标难以共享 数据不一致、不准确 由于信贷管理系统业务人员没有填写或填写错误借据的五级分类信息,导致报表数据不准确,需要手工补录修
10、改 问题 部分关键业务数据缺失 源系统校验关系缺失及业务人员客户号 客户简称 75682839 综合厂 97326762 国鑫资产 操作随意 不同系统相同客户号对应的客户简称不一致 客户号 客户简称 75682839 粮食局粮油综合 14 97326762 乳山市国鑫资产 数据应用现状分析-总结 随着业务的不断发展和信息化的不断深入,需建设的业务系统越来越多,随着业务系统的数据种类不断丰富完善,数据量的不断增大,如果不采取有效手段解决数据架构、数据标准、数据质量问题,随着信息化建设的深入,这些问题将像雪球一样越滚越大,越积越多。综合报表平台适应性升级改造阶段(问题增加为 451个)综合报表平台
11、建设阶段(问题339个)第三部分 数据治理阶段目标 数据平台逻辑架构 源数据 CBS CM2006 EE BOND PE 贴源层 综合业务系统 CM2006 国际结算系统 债券管理系统 外汇资金系统 报文清算系统 报价引擎系统 数据仓库 整合层 当事人 协议 事件 当事人资产 .数据应用 集市层 非现场监管集市 财会报表集市 ETL 风险报表集市 高管驾驶舱集市 .作业调度汇总层 机构 客户 账户 .非现场报表 财会报表 客户风险报表.ETL ETL 作业调度作业调度高管驾驶舱 数据 切分 数据调度与处理 元数据管理 数据生命周期管理 数据质量检查系统 数据传输 FES MCS 数据管理系统
12、数据平台部署架构 省行省行1 1:心跳三层交换机省行数据库服务器数据加载程序(完善后)数据传输平台配置库总行:总行:新购置Web应用负载均衡器状态线新购置Web应用负载均衡器三层交换机已有应用服务器(2台)(188.1.6.107/188.1.6.108)ireport v4.3 BIreport v3.2 客户一部报表应用 中间业务报表应用新购置明细报表应用服务器(6台)Weblogic 11gireport v4.3BIreport v3.2新建客户风险报表应用原有应用节点扩充数据切分应用(完善后)元数据管理应用心跳省行应用服务器ireport v4.3数据传输平台应用心跳新购置数据平台E
13、TL服务器(8台)Red Hat Enterprise Linux 5(Advanced)MOIA4.4 agentDataStage 8.5 EE(内置Websphere)调度平台代理节点数据平台ETL工程DS8.5管理应用三层交换机三层交换机新购置调度服务器(1台)Red Hat Enterprise Linux server release 5.5MOIA4.4 server调度平台主节点省行文件服务器IBM MQ 7.0.1心跳心跳心跳心跳心跳 省行省行230230新购置数据传输服务器(2台)Red Hat Enterprise Linux 网络5(Advanced)Weblogic
14、11g农发行内网IBM MQ 7.0.1数据传输平台应用新购置数据平台数据库 新购置明细报表数据库已有ETL服务器(2台)已有数据库服务器(2(188.1.6.109/188.1.6.110)台)服务器(2台)服务器(2台)MOIA4.4 agent(188.1.6.105/188.1.Oracle11gOracle11gDataStage 8.5 EE6.106)客户风险应用数据库数据整合层、汇总层元数据配置库(内置Websphere)调度平台代理节点平台ETL工程(优化后)DS8.5管理应用集市物理模型数据传输平台配置库已有文件服务器(2台)(188.1.6.111/188.1.6.112
15、)Oracle10gMOIA配置库DS8.5资料库SAN FC SwitchFC 阵列SAN FC Switch数据平台项目建设目标 1、发现数据质量问题,推动数据治理工作的开展,建立数据质量检核系统 对源系统进行数据质量检核,发现数据质量问题并统计影响到的报表 对数据质量问题进行归类总结,分析成因和改进建议 建设数据质量检核系统 2、分析、梳理业务系统,推动数据标准的建立,统一全行口径 建立基础标准和指标标准框架 确定标准化范围,对重要属性进行标准化 3、建立数据仓库模型框架,优化我行数据架构,建设稳定、可扩展的数据仓库 引进业内具有先进水平的金融数据模型,进行客户化改造后,建成符合某集团特
16、点的数据仓库模型框架 覆盖某集团主要业务系统数据,以便快速高效的为应用系统提供数据 存储历史数据,解决新报表上线才有数的问题。汇总层建设(共性加工)目标建设方法-发现数据质量问题 分析源系统表数据,从及时性、完整性、准确性、有效性、一致性方面对源系统数据进行数据校验,发现并记录数据质量问题,生成数据质量问题报告 建设数据质量检核系统,对源系统基础建设 内容 业务数据的进行全面的数据质量检查,并实现重要业务数据质量的周期性动态检查,对发现的数据质量问题生成数据质量报告,反馈给业务部门 目标建设方法-发现数据质量问题 1 源系统分析阶段 全面分析主要源业务系统 工作阶段 3 2 数据质量问题检查阶段 根据制定的检查规则编写程序,对源系统数据进行检查 数据质量问题分析阶段 分析有质量问题数据对现有应用的影响;提出解决措施 源系统分析阶段 1、工作内容 全面分析和消化主要源业务系统 重点分析核心业务系统和信贷两个系统 产出物 技术角度分析调研 源系统表结构,包括主键、外键、唯一性约束 源系统表间关系 源系统字段长度和类型 2、工作依据 源系统文档:源系统操作手册、源业务系统设计说明书、源系统数