《数据中台:数据湖构建某汽车集团数据中台解决方案》由会员分享,可在线阅读,更多相关《数据中台:数据湖构建某汽车集团数据中台解决方案(40页珍藏版)》请在金锄头文库上搜索。
1、上汽数据湖4.0“数据湖”构建上汽集团数据中台数据湖 | PART1看到的现象表面原因过渡原因根本原因大数据平台待建数据库计算能力不足数据量大个性化平台业务数据孤岛实时海量存储计算人力不足成本过高技术沉淀不足数据湖因运而生 V0.1萌生2016.04V1.0 产品2017.06V3.0 沙盒2018.06Vx.x 未来2019.12V0.2 沉淀2016.12V2.0 成熟2017.12V4.0 品牌2018.12单位格级别统一权限管理金融级自动化数据加密敏感数据脱敏金融级数据加密数据备份及容灾功能数据快照及数据回溯百亿级数据亚秒级查询高性能查询数据库数据实时接入异构数据库数据融合每秒百万级数
2、据接入实时大数据海量数据机器学习数据挖掘系统海量小文件存储及检索便捷科学计算应用数 据 湖Data lake ecosystemData lake ecosystemData lake ecosystemData lake ecosystem数据湖管理模块数据湖管理数据湖管理数据湖管理数据湖管理原始数据库入湖原始数据库入湖原始数据库入湖原始数据库入湖数据出湖数据出湖数据出湖数据出湖 - - - - 科学家工作台科学家工作台科学家工作台科学家工作台数据链路管理数据链路管理数据链路管理数据链路管理科学家工作台科学家工作台科学家工作台科学家工作台数据湖事件管理数据湖事件管理数据湖事件管理数据湖事件管
3、理数据湖管理数据湖管理数据湖管理数据湖管理数据链路(发送端)详情数据链路(发送端)详情数据链路(发送端)详情数据链路(发送端)详情数据湖管理数据湖管理数据湖管理数据湖管理数据链路(接收端)管理数据链路(接收端)管理数据链路(接收端)管理数据链路(接收端)管理数据湖管理数据湖管理数据湖管理数据湖管理数据表同步管理数据表同步管理数据表同步管理数据表同步管理数据湖管理数据湖管理数据湖管理数据湖管理数据表数据表数据表数据表MergeMergeMergeMerge管理管理管理管理数据湖管理数据湖管理数据湖管理数据湖管理数据链路配置数据链路配置数据链路配置数据链路配置数据湖管理数据湖管理数据湖管理数据湖管
4、理数据加密,访问权限,脱敏设置数据加密,访问权限,脱敏设置数据加密,访问权限,脱敏设置数据加密,访问权限,脱敏设置数据治理模块数据治理数据治理数据治理数据治理数据湖租户数据湖租户数据湖租户数据湖租户租户数据库管理租户数据库管理租户数据库管理租户数据库管理数据资产事件管理数据资产事件管理数据资产事件管理数据资产事件管理数据质量监控数据质量监控数据质量监控数据质量监控数据治理数据治理数据治理数据治理数据表列表数据表列表数据表列表数据表列表数据库状态信息数据库状态信息数据库状态信息数据库状态信息数据治理数据治理数据治理数据治理元数据导入元数据导入元数据导入元数据导入数据治理数据治理数据治理数据治理数
5、据表详情数据表详情数据表详情数据表详情数据治理数据治理数据治理数据治理数据血缘数据血缘数据血缘数据血缘数据治理数据治理数据治理数据治理数据关联数据关联数据关联数据关联数据治理数据治理数据治理数据治理数据库元数据监控数据库元数据监控数据库元数据监控数据库元数据监控数据治理数据治理数据治理数据治理数据表访问日志数据表访问日志数据表访问日志数据表访问日志数据治理数据治理数据治理数据治理数据资产查询数据资产查询数据资产查询数据资产查询科学家工作台科学家工作台科学家工作台科学家工作台科学家工作台数据挖掘数据挖掘数据挖掘数据挖掘/ / / /分析项目管理分析项目管理分析项目管理分析项目管理科学家工作台科学
6、家工作台科学家工作台科学家工作台程序编辑程序编辑程序编辑程序编辑容器管理容器管理容器管理容器管理科学家工作台科学家工作台科学家工作台科学家工作台项目文件项目文件项目文件项目文件/ / / /资源管理资源管理资源管理资源管理科学家工作台科学家工作台科学家工作台科学家工作台会话会话会话会话(docker)(docker)(docker)(docker)管理管理管理管理科学家工作台科学家工作台科学家工作台科学家工作台JupyterJupyterJupyterJupyter IDE IDE IDE IDE和运行环境和运行环境和运行环境和运行环境数据同步链路SAIC DATA LINKSAIC Data
7、 Link SAIC Data Link SAIC Data Link SAIC Data Link SAIC Data Link是上汽集团自主研发的数据同步链路,适配上汽数据湖平台。完成异构数据库数据实时同步到上汽数据湖的工作,具有以下特点:1. 支持Oracle,DB2,MySQL,MongoDB,PostgreSQL 等数据库2. 异步非阻塞方式读取数据库Log文件,对数据库不构成压力3. 实时同步:2秒数据延迟(局域网)4. 数据存储,传输加密:数据存储使用AES,3DES加密,数据传输使用HTTPS加密5. 支持局域网/广域网数据同步6. 强数据一致性校验,保证在网络条件差的情况下不
8、丢失一条数据7. 无状态链路设计,动态扩容,基于容器的自动运维8. Hock方式提供数据同步链路开发接口,支持用户自定义Lua脚本扩展数据链路功能SAIC Data Link SAIC Data Link SAIC Data Link SAIC Data Link 架构图(局域网架构图(局域网架构图(局域网架构图(局域网) SAIC Data LinkSAIC Data Link SAIC Data Link SAIC Data Link SAIC Data Link 架构图(广域网架构图(广域网架构图(广域网架构图(广域网) SAIC Data Link数据湖经济型分析报价单价(每TB)Or
9、acle OGG4万/Core1000万左右(200链路)Oracle exadata10002000万 100TB10万/TBSAP HANA320万 256G1280万/TBTeradata300万 3040T100万/TB据了解某大型企业Oracle exadata和SAP HANA,各花了400万和320万。数据湖建设成本,单台机器 40T,目前市面上这类机器的价格大概在10万左右,软件成本按照1年算,平均10个成员(100万/人/年)大致1000万。按照10套软件的输出平摊,100万(开发成本)+(10万硬件成本 / 40T(存储容量)) = 100万+0.25万/TB实施成本,目前
10、实施人员(外包)成本大致为70万/人/年,按一个季度的实施成本为17.5万元。企业上线数据湖的预估成本(按照10套数据湖产品输出计算): 100万+0.25万/TB+17.5万数据湖3.0数据湖4.0节省70%以上建设成本Guide big data productivity上 汽 数 据 湖 的 用 户3839PPT模板下载: 行业PPT模板: 节日PPT模板: PPT 素材下载: PPT图表下载: 优秀PPT下载: PPT教程: Word教程: Excel 教程: 资料下载: PPT 课件下载: 范文下载: 试卷下载: 教案下载: 字体下载: 感谢观看 | THANK YOUGuide big data productivity