淘宝数据仓库核心架构设计的历史与发展

上传人:ni****g 文档编号:591352971 上传时间:2024-09-17 格式:PPT 页数:30 大小:4.62MB
返回 下载 相关 举报
淘宝数据仓库核心架构设计的历史与发展_第1页
第1页 / 共30页
淘宝数据仓库核心架构设计的历史与发展_第2页
第2页 / 共30页
淘宝数据仓库核心架构设计的历史与发展_第3页
第3页 / 共30页
淘宝数据仓库核心架构设计的历史与发展_第4页
第4页 / 共30页
淘宝数据仓库核心架构设计的历史与发展_第5页
第5页 / 共30页
点击查看更多>>
资源描述

《淘宝数据仓库核心架构设计的历史与发展》由会员分享,可在线阅读,更多相关《淘宝数据仓库核心架构设计的历史与发展(30页珍藏版)》请在金锄头文库上搜索。

1、淘宝数据仓库架构设计的淘宝数据仓库架构设计的历史与发展历史与发展薛奎2011-08-09主题1 1/ /数据仓库概述数据仓库概述数据仓库基本特征数据仓库基本特征数据仓库基本架构数据仓库基本架构2/2/数据仓库建设数据仓库建设架构方式架构方式容量平台容量平台模型设计模型设计3/3/元数据(元数据(MetaDataMetaData)建设)建设元数据元数据元数据在元数据在淘淘宝的应用宝的应用4/ETL4/ETL处理处理ETLETL概要说明概要说明ETLETL主要做什么主要做什么我们目前的我们目前的ETLETL调度工具调度工具ETLETL调度发调度发展展。5/5/数据仓库价值挖掘与发现数据仓库价值挖掘

2、与发现数据产品数据产品数据团队数据团队6/6/联系我们联系我们数据仓库特征面向主题集成的相对稳定反映历史变化数据仓库基本架构归档区归档区近线区整合区交互区结构化数据源结构化数据源非结构化数据源非结构化数据源ETLAD-HOC数据分数据分析析数据挖数据挖掘掘数据产数据产品品元数据( Meta Data )数据仓数据仓库库源数据源数据数据应数据应用用主题1 1/ /数据仓库概述数据仓库概述数据仓库基本特征数据仓库基本特征数据仓库基本架构数据仓库基本架构2/2/数据仓库建设数据仓库建设架构方式架构方式容量平台容量平台模型设计模型设计3/3/元数据(元数据(MetaDataMetaData)建设)建设

3、元数据元数据元数据在元数据在淘淘宝的应用宝的应用4/ETL4/ETL处理处理ETLETL概要说明概要说明ETLETL主要做什么主要做什么我们目前的我们目前的ETLETL调度工具调度工具ETLETL调度发调度发展展。5/5/数据仓库价值挖掘与发现数据仓库价值挖掘与发现数据产品数据产品数据团队数据团队6/6/联系我们联系我们数据仓库架构方式集线器架构集线器架构总线架构总线架构总体方法总体方法从上向下从下向上体系结构体系结构先建立全企业的原子级数据仓库,然后在此基础上建立部门级应用按照业务过程建立数据集市,通过数据总线和一致性维度达到企业级的一致性复杂度复杂度非常复杂较为简单建模方法建模方法面向主题

4、,数据驱动面向过程,应用驱动建模工具建模工具传统的ER模型维度模型易访问性易访问性低高数据集成度数据集成度企业级的数据集成独立业务领域内的数据集成数据变化度数据变化度源系统数据发生了较大的变化源系统数据相对稳定交付时间交付时间需要很长的启动时间可以快速部署应用部署成本部署成本较高的启动成本,较低的后续项目开发成本较低的启动成本,每个后续项目的成本接近容量平台规划容量规划元素:计算,存储,网络容量规划的不确定性因素:使用人数、数据量、数据需求量容量平台的选择考虑因素:线性扩展、成本、稳定性、性能、运维淘宝容量平台发展单结点oracle特点:无扩展能力,计算存储能力有限Oracle特点:有一定的扩

5、展能力,但不是线性扩展。高端存储与商业软件成本高昂Greenplum特点:可线性扩展,但当集群到达一定规模时,数据仓库的不可写时间会越来越长。低廉的设备与收费软件Hadoop集群特点:可线性扩展;副本保证系统7*24小时不间断提供服务。开源系统与低廉设备传统数据仓库平台架构DB磁盘ClientClientDBSAN/共享磁盘DBDBDBClientDB磁盘DB磁盘DB磁盘DB磁盘SMP共享磁盘共享磁盘完全不工享完全不工享代表:小型机代表:oracel RAC代表:Greenplum,Teradata(注:浅蓝色部分表示共享)云计算平台设计理念硬件错误是常态而不是异常流式数据访问大规模数据集简单

6、的一致性模型(写一次,不限读次数)移动计算比移动数据更划算异构软硬件平台间的可移植性(注:后续都以HDFS来说明云计算平台)HDFS平台架构Hdfs设计的一些要点副本存放:rack-aware的策略副本读取:就近原则Editlog的事务日志:记录任何对文件元数据产生修改的操作FsImage:存放整个文件系统的namespace,包括block到文件的映射、文件的属性数据复制硬盘数据错误、心跳检测和重新复制:每个Datanode节点都向Namenode周期性地发送心跳包集群均衡文件系统元数据持久化数据块:流失读取,默认64M流水线复制健壮性文件的删除和恢复Replication因子的减小数据组织

7、空间的回收业务处理过程模型功能分解图数据流向图CRUD矩阵数据模型ERD级别级别(Entity Relationship Diagram,实体关系图)高度抽象粗粒度DIS级别级别(Data Item Set,数据项集)细化物理模型物理模型级别级别(Physical Model)与实际数据表完全对等进一步细化(注:后面提到的数据模型为物理模型)维度的处理无变化维:如人的性别,身份证号直接插入缓慢变化维:如人的婚姻状态覆盖全历史记录保留记录最新及上一次历史剧烈变化维:如人的工作经历维度属性处理建模面临的挑战挑挑战业务快快速速变化化业务快快速速扩张数据数据应用的海用的海量增量增涨建模中需要综合考虑的

8、点效率与数据粒度的矛盾应用需求覆盖率模型的可扩展性生成模型的成本是否考虑不同数据用户的需求?终极解决方案-自动化建模SVN主题标签权重配置元数据自动化建模数据库模数据库模型型优化优化模型模型建议建议主题1/1/数据仓库概述数据仓库概述数据仓库基本特征数据仓库基本特征数据仓库基本架构数据仓库基本架构2 2/ /数据仓库建设数据仓库建设架构方式架构方式容量平台容量平台模型设计模型设计3/3/元数据(元数据(MetaDataMetaData)建设)建设元数据元数据元数据在元数据在淘淘宝的应用宝的应用4/ETL4/ETL处理处理ETLETL概要说明概要说明ETLETL主要做什么主要做什么我们目前的我们

9、目前的ETLETL调度工具调度工具ETLETL调度发调度发展展。5/5/数据仓库价值挖掘与发现数据仓库价值挖掘与发现数据产品数据产品数据团队数据团队6/6/联系我们联系我们元数据元数据系统元数据数据库表元数据数据表描述数据字段描述ETL代码元数据对数据表,字段引用关系代码元素元数据ETL任务运行过程元数据map数,reduce数运行起至时间数据容量元数据记录数占用空间大小ETL任务调度元数据依赖关系调度周期优先级业务元数据业务逻辑单元元数据业务主题元数据语义元数据系统元数据与业务元数据关系元数据元数据在淘宝中的应用元数据血缘分析系统Reduce自适应系统数据波动监控系统告警系统ETL代码优化系

10、统自动化建模系统自助分析提数系统调度系统主题1/1/数据仓库概述数据仓库概述数据仓库基本特征数据仓库基本特征数据仓库基本架构数据仓库基本架构2 2/ /数据仓库建设数据仓库建设架构方式架构方式容量平台容量平台模型设计模型设计3/3/元数据(元数据(MetaDataMetaData)建设)建设元数据元数据元数据在元数据在淘淘宝的应用宝的应用4/ETL4/ETL处理处理ETLETL概要说明概要说明ETLETL主要做什么主要做什么我们目前的我们目前的ETLETL调度工具调度工具ETLETL调度发调度发展展。5/5/数据仓库价值挖掘与发现数据仓库价值挖掘与发现数据产品数据产品数据团队数据团队6/6/联

11、系我们联系我们ETL概要说明我们80%的资源包括人力,计算资源消耗在ETL上;我们数据平台架构组开发工具,平台基本上是ETL平台,工具;ETL之于数据仓库有如循环系统于人一样重要,数据平台的健康,新陈代谢都是归功于ETL;ETL任务的好坏直接决定数据仓库的数据质量,数据产出时间以及很大程度上是否能发挥数据的价值;ETL主要做什么?数据采集数据同步数据分发数据抽取数据转换数据清洗数据转换/清洗数据装载数据转换数据清洗数据压缩数据装载/转换/清洗建立维度数据建立实事数据数据归并数据切分建立维度实事中间表数据集市指标库数据产品数据挖掘用户需求处理我们目前有哪些ETL工具平台ETL开发知识库系统:问答

12、系统、数据字典系统ETL开发IDE:DIP、WEBIDEETL开发统一门户:数据质量监控系统:天眼ETL监控告警系统:ETL任任务调度系度系统:天网:天网Reduce自适应系统数据生命周期系统数据采集同步:数据采集同步:TT、DBSync、DataXETL调度发展Crontab时代时代完全为了解决定时启动的问题无法解决时序前后置依赖问题元法解决均衡负载问题无法解决优先级问题运维的灾难RAC天网时代天网时代根节点定时启动任务之间完全基于触发启动能很好解决均衡负载的问题能很好的解决优先级问题一键式运维,轻松快捷不能解决rac单节点失效的问题。云梯天网时代云梯天网时代根节点启动任务之间基于触发启动能

13、很好解决均衡负载ETL任务的优先级能传递到云梯的资源分配调度很好解决gateway失效的问题一键式运维,轻松快捷主题1/1/数据仓库概述数据仓库概述数据仓库基本特征数据仓库基本特征数据仓库基本架构数据仓库基本架构2 2/ /数据仓库建设数据仓库建设架构方式架构方式容量平台容量平台模型设计模型设计3/3/元数据(元数据(MetaDataMetaData)建设)建设元数据元数据元数据在元数据在淘淘宝的应用宝的应用4/ETL4/ETL处理处理ETLETL概要说明概要说明ETLETL主要做什么主要做什么我们目前的我们目前的ETLETL调度工具调度工具ETLETL调度发调度发展展。5 5/ /数据仓库价值挖掘与发现数据仓库价值挖掘与发现数据产品数据产品数据团队数据团队6/6/联系我们联系我们数据产品淘数据数据魔方量子统计报表卖家云图KPI系统路径分析点击流系统标准版企业版排行榜淘词黄金罗盘销售分析直通车基础数据量子基础服务首页点击热图哪些团队在使用数据?数据仓库ETL开发团队(三条业务线)BI团队数据魔方团队(产品一部)量子团队(产品二部)数据分析师团队数据挖掘团队?联系我们数据平台与产品Blog: http:/www.tbdata.org/百科:邮件列表:taobao-dwlist.alibaba-薛奎微博:薛奎_xuekuimail:旺旺:薛奎

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号