数据中台技术架构方案

上传人:尘** 文档编号:474873890 上传时间:2024-05-02 格式:PPTX 页数:50 大小:933.24KB
返回 下载 相关 举报
数据中台技术架构方案_第1页
第1页 / 共50页
数据中台技术架构方案_第2页
第2页 / 共50页
数据中台技术架构方案_第3页
第3页 / 共50页
数据中台技术架构方案_第4页
第4页 / 共50页
数据中台技术架构方案_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《数据中台技术架构方案》由会员分享,可在线阅读,更多相关《数据中台技术架构方案(50页珍藏版)》请在金锄头文库上搜索。

1、数据中台技术架构方案本方案将为您介绍XX通过数据集成平台、数据计算平台、数据服务平台如何在大型金融级复杂数据环境中落地数据中台,以及去XX关键难点的解决之道数据集成平台数据计算平台数据服务平台目录数据中台典型特征数据标准化以实体对象为中心的业务主数据提炼、DMP构建,实现ID识别连接、标签标准规范地自动化生产建设自动化在现有数据平台基础上,自动化构建虚拟数据集市、主题库和专题库,即时响应业务的快速变化管理资产化支持资产化视角构建及管理数据体系,适用于数据类型多样,需要统一管理数据的业务场景业务智能化通过机器学习算法动态识别数据的业务特征,智能推荐业务所需要的数据模型策略配置任务管理断点续传数据

2、对账数据分发数据数据处处 理理数据 计算标识加工关联任务 调度清洗提取规则业务资源 库数 据 试 验 空 间资源 库原始 库业务实体库标签关键 词业务知识库业务库业务库数 据 资 源 目 录元 数 据管 理 信 息 库主题 库知知识识 库库模型业务专题库统一索引库数据存数据存储储备份库数据集数据集 成成数据服数据服 务务基础应用 服务数据管理 服务数据共享 服务数据中台典型架构数据治理数据治理资源目录分级分类数据血缘数据标准元数据数据质量统一元数据统一访问统一账户与权限全链路监控大数据云总体技术架构托管弹性大数据基础服务超大规模智能计算和存储管理服务智能数据管理统一调度系统统一数据查询搜索分析

3、引擎数据采集数据集成离线计 算实时计 算图计算统一存储统一调度大数据云基础平台交互查询和分析服务全链 路监 控大数据云生态组件金融大数据服务数据仓 库AI云 平 台统一 元数 据、访问、存储、调度、权限、监控监管报表企业服务客户关系风险管理一站式数据分析与深度挖掘服务数据可视化模型化业务 分析服务报表服务检索服务推荐服务在线事件服务算法 调用模型 托管数据 存储数据 处理弹性伸缩自动化部署运维计算存储分离资源隔离组件高可用开放组件管理账户 与 权限数据 审计多租户开发套 件住房租赁智能投顾数据交换数据中台总体架构Web IDE代码库桌面IDE 插件任务流程设计器SQL作业调度作业执行信息作业资

4、源消耗作业重跑补数据作业集成数据来源数据中心(DW)业务源端数据采集调度台务数开发模块集成工具测试工具发布工具据中代码开发数据源配置功能测试任务发布服运行调度集成规则性能测试节点发布区版本管理集成调度测试报告发布管理Spark代码构建打包提交代码执行SQL节点执行Spark 节点执行计算资源用户信息同步登录权限用户权限管理资源申请资源详情资源销毁4A统一认证多租户管理数据中台业务架构数据集成数据开发运维监 控半结构化存储NoSQL消息队列关系型数据库非结构化存储数据源管理数据源类型连接属性数据源配置数据来源字段映射调度配置基础属性时间属性集成任务管理调度依赖连通性测试资源消耗监控数据来源数据去

5、向集成任务管理资源消耗监控离线任务同步任务任务资源消耗同步任务任务开发任务节点任务发布提交测试脚本管理脚本分类血缘分析脚本编辑任务编排可视化编排串联编排依赖配置调度配置调度时间策略配置调度脚本管理调度配置语法校验任务监控实时预警监控报表任务运维周期实例补数据实例任务重跑任务视图任务监控系统管理租户管理用户管理角色管理权限管理菜单管理日志管理同步任务查询分析离线计算实时计算数据集成多源批量同步ETL(适配器)数据校验集成监控适配多种查询引擎统一数据缓存JDBC/REST API基础平台数据仓库HadoopSpark适配Hive/Spark/MR插件/多语言支持计算优化服务插件Spark支持SQL

6、-SCAN适配 Flink插件/SQL支持插件Flink支持优化及高可用服务动态运维管理调度系统运维监控运行监控 状 态 监 测 自定义监控任务配置高可用派发/执行资源权限隔离任务生命周期管理任务列表管理使用人员数据开发工程师数据分析工程师业务处理工程师其他使用人员数据科学工程师管理服务交互分析可视化/交互权限控制安全审计计算和存储资源管理运维管理多查询引擎适配数据开发统一元数据管理数据模型管理数据融合关联SQL/脚本处理脚本管理数据融合关联数据资源管理数据中台技术架构数据数据源源数据数据流流数据服数据服务务文件加载KafkaLambdaIoT 流API服务数据模型BI分析融合计算数据洞察数据

7、模型算法模型数据集成数据集成数据数据处处理理文件加载云平台S3对象存储数据中台数据流向图实时采集Agent负载 均衡Relay 服务去重服务接入端权 限认证OracleHadoop黑白名单 验证实时批量数据校验网络爬虫智能数据管理全链路监控批量同步 工具SDK远程采集接入远程采集管理远程状态监控远程配置管理远程升级控制扩容缩容管理批量同步(集群直连)Kafka SinkHDFSSink批量同步任 务管理同步插件同步调度管理批计算任务数据源网页程序 日志文件服务数据源端采集集群Mongo DBElastic Search实时同步实时同步实时同步阿里 大数据 平台华为 大数据 平台浪潮 大数据 平

8、台数据中台数据集成Data ExchangeStormSpark Streaming处理延时实时实时准实时处理速度50万/秒10万/秒3万/秒有状态操作是否是使用MQ种类ZeroMQZeroMQKafkaSQL 支持支持不支持不支持维度汇总操作可以不可以不支持分析任务复杂简单较复杂数据集成与其他平台对比支持数据格式支持数据格式DelimitedJSONXMLFree TextBinaryName/ValueZippedAVROOracle GoldenGate Trail FilesApache LogSys LogWindows Event LogsMail LogSNMPCollectDC

9、EFDHCP LogWCF+Others支持数据支持数据库库 (VIA CDC)OracleDB2Microsoft SQL ServerMySQLMariaDBPostgreSQLOthers via JDBC支持大数据平台支持大数据平台HDFSHiveHuawei FusionInsightAliyun MaxCompute支持消息系支持消息系统统KafkaFlumeJMSAMQP支持文支持文件件Log FilesSystem FilesBatch Files支持网支持网络协议络协议TCPUDPHTTPCisco NetFlowPCAPIOT物物联联网网协议协议MQTTOPC UA支持云服

10、支持云服务务AWS RDS for PostgreSQLAWS RDS for MySQLAWS RedshitAWS S3Aliyun RDS for PostgreSQLAliyun RDS for MySQLAliyun MaxCompute数据集成平台数据源端支持支持数据支持数据库库OracleMicrosoft SQL ServerMySQLXXPostgreSQLMemSQLOthers via JDBC支持消息系支持消息系统统KafkaJMSAMQPMAPRStream支持云服支持云服务务Amazon S3Amazon RedshiftAWS RDS for OracleAWS

11、RDS for MySQLAmazon KinesisAzure StorageAzure SQL DatabaseAzure HDInsightGoogle Big Query支持文件格式支持文件格式DelimitedJSONXMLTemplateAVRO支持支持NOSQL数据数据库库MongoDB大数据平台大数据平台/HADOOPHBaseHiveHDFSKuduClouderaHortonworksHuawei FusionInsightAliyun MaxComputeIOT物物联联网网协议协议MQTTOPC UA支持其他系支持其他系统统Hazelcast数据集成平台-数据目标端支持数

12、据中台项目管理流程数据中台数据集成流程数据中台数据开发流程数据中台代码开发和调试流程数据中台数据开发流程可用脚本代码开发开发环境数据任务WebIDESQLSparkFlink代码调试任务编排生产环境上线 任务异常 通知运维 报告任务发布运维监控任务测试测试环境功能 已测性能 已测测试 报告生成报告代码资源库在线 编辑版本 迭代测试不通过 返回修改开发完成 提交测试数据计算引擎数据中台数据处理流程数据集成平台流式SQL处理实时清洗Hashdata分布式文件系统批量SQL处理批量处理Spark数据中台数据计算引擎JDBC/ODBC DriverRESTful API(SQL)交互查询Web查询服务

13、引擎引擎管理离线计算数据可视化PythonR作业入口应用管理服务资源管理服务引擎管理引擎管理引擎管理用户管理代码库管理缓存服务JDBC/ODBC DriverRESTful API(SQL)交互查询WebSQL解析统一元数据监控告警服务服务网关/路由统一数据计算引擎数据权限元数据同步指 标 上 报服务性能分析降级/熔断服务注册负载均衡认证服务配置管理查询服务引擎QueryServer数据融合多数据引擎适配器跨集群联表查询检索服务数据可视化搜索引擎执行计划生成执行优化对象存储元数据融合查询数据中台数据计算引擎PythonRDatabase Reader监控告警展示 Grafana库表迁移数据同步

14、运维监控数据中台数据计算微服务化Database Writer任务执行JDBC/ODBC DriverRESTful API(SQL)数据计算引擎周期配置参数配置任务调度引擎依赖配置配置管理任务调度引擎计算执行引擎本 测 试融合查询ScalaPostgreSQL 数据库Spark服务器Flink服务器Hadoop服务器SQL脚本执行Scala脚本执行其他脚本执行计算引脚擎适配器脚本 上 传本 执 行度 执 行目 管 理户 管 理Spring MVC框架React框架WebSocketWeb微服务架构监控数据采集 Prometheus运维监控服务器数据集成服务器数据中台系统间关系说明数据集成结果

15、服务调用服务发布数据中台平台采集调度系统数据集成请求租户申请资源分配数据集成结果数据集成结果采集调度系统租户管理系统服务发布平台XX 大数据服务平台,提供了关于数据清洗加工,预处理,特征工程,模型 构建,模型发布应用等一系列能力。XX具有支持模型生命周期每个阶段的必要功能,专门用来管理和部署分析模 型,平台使用项目对构建模型过程进行组织管理,不同的项目可对应于不同的业务用 途或应用。XX 数据服务平台支持多种文件系统导入:HDFS、FTP、HTTP、SFTP、S3 支持关系型数据库导入:DB2、Oracle、MSSQL、MySQL 支持分析型数据库导入:Redshift、XX、Greenplu

16、m 支持特定数据格式导入:SAS支持大数据平台导入:Hadoop支持 NoSQL 数据库导入:MongoDBXX 数据服务平台支持数据格式和数据模式的自动检测,在读取数据之前不需要对格式进行设置 支持交互式的数据清洗和增强,至少支持80种以上的数据清洗函数支持交互式的数据预处理,类型转换、公式运算、缺失值处理、异常值处理、规则化、归一化、按列处理、One-Hot 编码等预处理操作支持文本处理、日期处理、UR支持按照每列进行统计特征值如最大值、最小值、中位数统计 处理、JSON 数据处理、国家编码和货币转换支持 Python、Scala的脚本编写,可根据业务需求创建自定义数据类型 支持中文分词、中文词法分析、停用词过滤支持语法分析、篇章分析支持浅层语义表示、语义特征抽取XX 数据服务平台支持向导式构建机器学习数据模型支持拖拉拽可视化展示数据分析挖掘结果 支持可视化查看模型运行的性能支持通过不同的交叉策略比较和优化模型 支持自动生成非监督学习的可视化统计报表XX 数据服务平台回归算法支持:支持线性回归、逻辑回归、XGBoost回归、Catboost回归、SVM 向量机回归分类算法支持:随机

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 软件工程

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号