大数据治理平台建设解决方案

上传人:小****头 文档编号:389282068 上传时间:2024-02-20 格式:PPTX 页数:66 大小:22.80MB
返回 下载 相关 举报
大数据治理平台建设解决方案_第1页
第1页 / 共66页
大数据治理平台建设解决方案_第2页
第2页 / 共66页
大数据治理平台建设解决方案_第3页
第3页 / 共66页
大数据治理平台建设解决方案_第4页
第4页 / 共66页
大数据治理平台建设解决方案_第5页
第5页 / 共66页
点击查看更多>>
资源描述

《大数据治理平台建设解决方案》由会员分享,可在线阅读,更多相关《大数据治理平台建设解决方案(66页珍藏版)》请在金锄头文库上搜索。

1、大大 数数 据据 治治 理理 方方 案案一.大数据现状二.大数据治理方案三.大数据案例解析一.大数据现状711所涉及行业:政府、公安、政法、人社、审计、水务、医疗、教育、电力、保险、银行等。没有数据因为业务系统没有对数据加以保存,或者因为行政原因不能开放,即使上了大数据平台,那也只是有了“壳”而并不能发挥大数据的作用和价值。数据采集影响源端业务系统大多数厂商通过各种开源工具从业务系统抽取数据,侵入式的工具不但影响了源端业务系统的正常使用,而且稳定性极差,经常出现各种丢数据的情况。人员消耗大,服务成本高,不仅没有发挥大数据的价值,而且变成一种负担。缺乏数据治理、不准确、周期长缺乏数据治理,对数据

2、中存在的数据缺失、数据散乱、数据不一致,元数据频繁变更,元数据类型多样的问题并没有真正的处理和解决,即使有了大数据平台其分析结果也不准确。导致错误的决策,大数据分析失去可信度。智能应用并不智能通过对大数据与人工智能的营销,声称可以通过机器学习和深度学习的算法等,开发各种类型的智能应用,然而这些智能应用因为数据缺失、数据不准确并不能真正的落地,最后变成一个”噱头”。数据孤岛,信息不一致,数据难以整合由于在不同时期、应用不同技术、与不同厂商合作,建设了不同规模的业务应用系统,导致大量数据孤岛问题,系统间信息不一致且难以整合,希望通过数据治理和大数据的建设对数据加以融合,解决数据中存在的各种问题并让

3、各系统间数据能够互联互通。Demo结果,可视化大数据分析只关注到数据可视化中数据展示的效果,并以Demo和数据展示的效果来作为依据判断大数据建设的预期效果,忽略了数据采集、数据治理、数据存储和数据计算的重要性。大数据建设现状:周期长(问题、协调)2018Data Governance数据缺、散、乱数据不规整,存在数据缺失、散乱的情况数据多源异构业务系统众多,数据往往来自几十个不同品牌的业务系统元数据类型多样元数据类型多样,缺乏标准统一的元数据存储 元数据频繁变更各主题业务系统间数据变更后无法快速进行数据统一缺乏业务词汇标准缺乏贴合行业的专业业务词汇标准数据不一致由于录入或其他问题造成的数据不一

4、致情况数据治理:面临的挑战一.大数据现状二.大数据治理方案三.大数据案例解析目录二.大数据治理方案2.2 大数据采集交换平台2.4 大数据资产管理平台2.3 大数据处理平台2.1 大数据整体架构2.5 大数据交换平台2.6 大数据接口运维平台2.7 大数据分析挖掘平台 2.8 大数据智能平台 2.9 大数据决策平台 大数据整体架构数据湖是经过治理和整合的数据最佳存放环节数据湖架构,实现数据治理与大数据应用开发的脱藕,可以支持应用的百花齐放数据湖确保数据是用户的数据,不是应用开发商的数据多个不同特色的应用开发,可以分别从数据湖获得各自需要的数据,大大加快应用开发的速度Bill Inmon(数据仓

5、库之父)2015年:事先对数据归类建模的处理,可能对于大数据的各种离线分析有不足、需要演进,因此数据建模方式也需要演进。或许应该采取措施,把大量的原始数据初步处理后保存下来,为未来不断应用创新提供数据来源,而这个想法就是数据湖,现在廉价的存储和大数据技术也提供了这个可能性。二.大数据治理方案2.2 大数据采集集成平台 2.4 大数据资产管理平台2.3 大数据处理平台2.1 大数据整体架构2.5 大数据交换平台2.6 大数据接口运维平台2.7 大数据分析挖掘平台 2.8 大数据智能平台 2.9 大数据决策平台 Oracle数据库PostgreSQL达梦Dameng浪潮KDBFrom other数

6、据库SQL ServerDB2MySql国产数据库MPP内存数据库常见数据库消息队列文本格式达梦Dameng浪潮KDBDBoneEMC greenplumgbase8MSap hanaSQL ServerKafkatibcoTXTCSVXMLsql人大金仓Kingbase南大通用GbaseBa神州通用HP VerticaDB2PostgreSQLMySql常见数据库国产数据库InformixsybaseTo 大数据To NoSqlGemfireFrom Kafka华为云华为云腾讯云腾讯云阿里云阿里云天翼云天翼云To other数据库To Cloud云端数据库实时交换OracleSQL Serv

7、erK-DBDB2MySQLPostgreSQLDMCDB中间库第三方ETL接口文件结构化数据大数据/云源ETL过程目标端用户实时多表关联镜像库精简库数据仓库数据抓取模块实时Loader实时单表转换过滤准实时对源数据库的首次同步和实时增量跟踪技术目标数据库或者云直接装载源数据库-接口文件和ETL-目标库多种通路选择实现实时和准实时转换和共享镜像库精简库数据库实时交换与共享平台功能 功能说明数据实时抽取通过源系统端的Agent进程对数据库Log日志进行实时分析,获取交易指令,将交易指令和交易数据经过格式转化生成数据格式;过滤转化为与生产应用相吻合的指令;再次实时传输到目标端系统数据实时转换复制指

8、定的数据、表、列支持数据集中,即多个相同结构的数据库中将数据整合到一个库中,同类的数据项集合放到一个表中支持数据分发实时存储和增量变化通知Agent将识别到的实时增量数据发送到中间数据库,在此库中维护一张和生产系统对应的数据表;对数据进行整合、过滤和判断后通知订阅方支持ETL实现准实时数据抽取支持增量抽取间隔到每几秒钟、几分钟、10分钟生成一个接口文件支持从镜像库中获取数据QETL支持多表关联同步只复制到多表关联结果集到目标端支持复杂的sql模式支持多种同步维护模式保持分析日志模式而非sql查询模式 从生产数据库中抽取数据,并经过过滤、分析、整合、转换后,将数据加载到大数据平台或云平台中1.源

9、端数据库的实时增量跟踪技术2.目标端实时复制转换装载技术3.中间过程中的接口文件技术4.中间过程中的中间库技术5.中间过程中的准实时复杂转换(ETL)技术源数据库Redo LogArchived Log日志合成日志分析QUEUE目标数据库过滤SenderQUEUEYLoaderTransfor第三方ETLETL接口数据文件Receiver大数据/云功能数据库数据复制与实时技术 二.大数据治理方案2.2 大数据采集集成平台 2.4 大数据资产管理平台2.3 大数据处理平台2.1 大数据整体架构2.5 大数据交换平台2.6 大数据接口运维平台2.7 大数据分析挖掘平台 2.8 大数据智能平台 2.

10、9 大数据决策平台 大数据处理平台定位提供统一查询服务,支持多数据源数据关联,支持查询元数据、血缘和数据统计信息、支持数据全文搜索基于 spark,提供简单的用户界面实现可视化查询、多表关联和交互式转换集成各种数据存储平台,提供各类型的数据采集,支持数据全量、增量采集,支持数据清洗验证分析234查询探索采集存储数据准备提供丰富的监控界面,支持仪表盘,支持监控流程、服务、作业健康状态,支持告警,支持性能监控5集中监控提供丰富的组件,支持可视化拖拽编排流程、模板,简化数据流程、作业的管理,提高数据ETL效率1流程设计为企业用户提供数据采集、存储、计算、调度、探索、监控、安全等数据治理相关的一整套数

11、据湖治理解决方案,提供数据分析师准备数据的效率6集成方案 大数据处理平台:目标效果目目标标效果效果-数据治理前数据治理前呼叫中心CRM系统订单处理系统HR系统采购系统数据财务报告客户行为分析企业绩效管理数据数据数据数据数据数据客户数据服务商数据合作伙伴数据容易产生的问题:数据孤岛、数据冗余、编码不统一、数据不同步、缺乏一致性、访问繁琐引入若干第三方应用,或者定制开发数据分析业务系统企业内部企业外部 大数据处理平台:目标效果目目标标效果效果-数据治理后数据治理后呼叫中心CRM系统订单处理系统HR系统采购系统数据财务报告客户行为分析企业绩效管理数据数据数据数据数据数据客户数据服务商数据合作伙伴数据

12、数据治理的价值:数据共享、编码统一、数据同步、内容丰富、数据干净、访问可控单一平台、标准组件、拖拽可视化操作,支持定制(组件开发接口支持 java,scala,python,groovy,shell多种语言)数据分析业务系统企业内部企业外部数据湖治理平台原始数据清洗后的数据数据质量报告关联数据加工数据共享数据标准数据数据资产 大数据处理平台数据采集非结构化数据半结构化数据结构化数据网络数据全量、增量、实时全量、增量、实时数据库表CSV、XLSJSON、XML日志文档、图片音频、视频网页、论坛关系型数据库文件系统分布式文件系统网络爬虫、全量、增量NoSQL 数据库图 数据库GIS 数据库全量、增

13、量数据存数据存储储界面管理界面管理任务 进度日志界面界面监监控控比对配置功能截图数据清洗、验证、转换、分析功能截图数据转换/脱敏功能截图质量分析功能截图可视化关联、交互式分析功能截图集中监控功能截图全文搜索、访问控制2.2 大数据采集集成平台 2.4 大数据资产管理平台 2.3 大数据处理平台2.1 大数据整体架构2.5 大数据交换平台2.6 大数据接口运维平台2.7 大数据分析挖掘平台 2.8 大数据智能平台 2.9 大数据决策平台 二.大数据治理方案数据资产管理系统元数据源OracleMySQLSQL ServerPostgreSQL技术元数据管理元数据业务元数据手工录入批量导入自动采集/

14、更新元数据采集血缘分析数据地图访问安全数据趋势数据回滚E-R图CWM模型标准数据生命周期表结构对比实时性能展示实时会话管理图形化诊断大数据资产管理系统 数据资产管控资产视图数据资产管理 2.2 大数据采集集成平台 2.4 大数据资产管理平台 2.3 大数据处理平台2.1 大数据整体架构2.5 大数据交换平台2.6 大数据接口运维平台2.7 大数据分析挖掘平台 2.8 大数据智能平台 2.9 大数据决策平台 二.大数据治理方案 数据共享平台目标维持现有平台不变现有平台数据访问能平移到中间件。多协议支持,扩展性强,部署灵活!提供基础组件,公共组件,业务组件功能。引入缓存,内存数据库提升性能基础数据

15、,字典数据,业务数据整理筛选业务无缝水平扩展垂直扩展多样的监控管理手段降低开发难度,提高开发效率数据数据资产资产访问控制质量报告变动告警数据结构数据内容数据目录数据共享数据共享主题库接口管理接口管理文档API 服务访问统计质量报告变动告警数据结构数据内容数据目录公共库各平台、接口统一的接入中间件平台获取数据、服务,降低平台、接口直接与数据库交互平台、接口解耦平台、接口解耦统一管理统一管理业务剥离、迁移业务剥离、迁移缓存、内存数据库缓存、内存数据库WEB中间件主要业务功能中间件主要业务功能引入缓存和内存数据库,降低与关系型数据库交互次数,数据清理,筛选,提升性能将数据库一些业务实现剥离或迁移至中

16、间件平台,以服务的方式提供出去数据交换.场景1.支持接口发短信发短信支付接口支付接口作业调度作业调度短信服务短信服务组件组件支付接口支付接口组件组件校验过校验过滤滤记录日志记录日志作业调度框架作业调度框架作业1作业2作业N数据库组数据库组件件DB统一认证统一认证组件组件邮件组件邮件组件WEB 中间件中间件数据筛选统计数据存数据存储 缓存(访问频率极高,重复性数据)内存数据库(一天的经营性数据、统计性数据)关系型数据库(作为备份、大数据量存储)数据交换.场景2.数据查询查询网吧查询网吧信息信息记录日志记录日志调用服务调用服务校验过校验过滤滤缓存组件缓存组件内存数据内存数据库组件库组件数据库组数据库组件件DBRedis服务器12YN345同步缓存同步缓存同步缓存同步缓存数据同步(全量、增量)数据同步(全量、增量)WEB界面缓存界面缓存动态管理(方动态管理(方法级别)法级别)WEB界面数据界面数据库管理、监控库管理、监控123第一次访问第二次访问目前直接访问DISKWEB 中间件中间件数据筛选统计数据属性数据属性 经营性数据(营业额数据)活跃性数据(使用频率很高)数据量不大数据数据统计 内存

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 开发文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号