海量数据处理的大杀器:腾讯分布式数据仓库(TDW)

上传人:公**** 文档编号:569925940 上传时间:2024-07-31 格式:PPT 页数:29 大小:3.08MB
返回 下载 相关 举报
海量数据处理的大杀器:腾讯分布式数据仓库(TDW)_第1页
第1页 / 共29页
海量数据处理的大杀器:腾讯分布式数据仓库(TDW)_第2页
第2页 / 共29页
海量数据处理的大杀器:腾讯分布式数据仓库(TDW)_第3页
第3页 / 共29页
海量数据处理的大杀器:腾讯分布式数据仓库(TDW)_第4页
第4页 / 共29页
海量数据处理的大杀器:腾讯分布式数据仓库(TDW)_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《海量数据处理的大杀器:腾讯分布式数据仓库(TDW)》由会员分享,可在线阅读,更多相关《海量数据处理的大杀器:腾讯分布式数据仓库(TDW)(29页珍藏版)》请在金锄头文库上搜索。

1、海量数据处理的大杀器 腾讯分布式数据仓库(TDW)2012年7月Agendap 腾讯公司的海量数据处理平台p 腾讯分布式数据仓库(TDW)p TDW的技术点分享p TDW技术发展展望 腾讯公司的产品腾讯海量数据处理平台统统一一采采集集实实时时采采集集离离线线采采集集流式计算流式计算海量海量存储存储&批量批量处理处理分布式数据仓库分布式数据仓库(TDW)分布式计算平台分布式计算平台(TDCP)BI分析库分析库统统一一分分发发实实时时分分发发批批量量分分发发统一数据流工作流管理(统一数据流工作流管理(USP)海量数据平台海量数据平台产产品品产产品品Agendap 腾讯公司的海量数据处理平台p 腾讯

2、分布式数据仓库(TDW)p TDW的技术点分享p TDW技术发展展望 TDW是什么p分布式数据仓库(TDW)Tencent distributed Data Warehouse 腾讯海量数据处理平台的核心部件基于开源软件hadoop和hive,大量的优化和改造 TDW特性列表(部分)特性说明存储和计算天然容灾集群中个别节点down机不影响存储和计算存储和计算线性扩展通过添加节点线性扩展存储和计算能力SQL语言select、insert、join、where、groupby、having、limit、orderby、分区、视图等SQL函数简单函数、聚合函数、窗口函数、数据挖掘函数过程语言以pyt

3、hon语言为母体的PL/python多维分析rollup、cubeMapReduce允许提交MR任务多种存储结构可压缩的文本/结构化/列存储、ProtoBufSQL/MED可访问和管理PostgreSQL、Oracle数据完善的开发环境集成开发环境TDW IDE、命令行工具PLClient强大的管理台图形化的任务依赖配置、数据流转配置可定制功能根据公司业务特点,定制功能海量数据离线处理解决方案IDE三大引擎三大引擎TDW CoreSE操作台操作台后台接入后台接入数据流转数据流转工作流工作流USPCEQEBI库库OracleSQL开发开发数据挖掘数据挖掘数据展现数据展现BI工具工具TDW COR

4、Ep基于开源的hadoop和HIVEp分层结构查询引擎计算引擎存储引擎p进行深度定制TDW BI分析库TDWPostgreSQLDB存储引擎TDW_FDWpBI分析库的重要补充做为TDW的结果库、展现库提供标准化数据接口提供小数据量精细分析提供update和delete功能提供即席查询功能SQL-MEDTDW统一调度平台(TDW USP)p任务接入入库任务出库任务计算任务数据流转p配置任务依赖关系p配置任务重试和告警p任务状态查询p重做和补录任务TDW集成开发环境(TDW IDE)p强大的PL编辑调试环境PL模版语法高亮自动格式化自动补全单步调试p完善的SQL编辑调试环境语法高亮自动补全exp

5、lain自动格式化SQL执行进度显示数据导入导出元数据视图Agendap 腾讯公司的海量数据处理平台p 腾讯分布式数据仓库(TDW)p TDW的技术点分享p TDW技术发展展望 TDW的技术点分享p多数据存储格式 结构化存储+列存储+压缩ProtocalBufferp hash join 和 colocationp 基于负载感知的公平调度策略p 差异化多级存储策略p分时计算框架p数据库特性优化分区功能分区功能窗口函数窗口函数规则系统规则系统 结构化存储+列存储+压缩p结构化存储 更高的存储和解析效率提供了一些DB特性(获得表的行数,支持修改表结构)为随机访问提供基础设施p列存储支持列簇存储大规

6、模减小磁盘IO集群平均处理能力可得到1020倍的提升(与hadoop本身的文本存储相比)p压缩采用lzo压缩,兼顾IO和CPU行存储压缩比1:2,列存储1:4平均节省集群60%的存储成本ProtocalBufferp PB优势 良好的协议扩展能力描述能力强、解析效率高编码格式节省存储空间p 腾讯广告业务统一采用PB为存储协议,更多其他业务也开始逐步使用p TDW支持PB格式早于开源版本实现可根据接口文件自动创建表结构hash join 和 colocationp hash join 90%的数据关联都是基于用户id的实现了hash分区入库优化器自动使用hash join(join key=ha

7、sh key)省略了reduce阶段,大大节省计算时间 pColocation修改了namenode的block摆放策略,使同一hash分区的数据存放在同一台机器上用一致性hash环存放hash分区数据基于colocation的hash join只需要访问本地磁盘即可完成计算,节省参与join计算总数据量80%网络IOp hash操作性能提升3倍基于负载感知的公平调度策略p 调度策略的特点资源分组,保证重要用户得到资源保障用户隔离,保证用户之间不互相影响允许重要紧急的任务立即获得集群全部资源小任务友好,小任务不会被大任务堵塞负载感知,不下发任务给内存/磁盘空间不足的子节点p效果:集群稳定,总资

8、源不变的情况下效率上升任务平均等待时长从24秒下降到19秒任务平均耗时降低10%集群CPU负载保持不变没有再出现过任务互相影响或者负载过高造成的故障差异化多级存储策略p 结构化压缩平均2倍的压缩率读写效率和存储空间平衡TDW中默认的压缩策略p 差异化压缩平均5倍的压缩率可与结构化压缩混用主要针对TDW中的冷数据p 差异化副本策略 hadoop raid 节约存储和不降低数据安全 更激进的副本策略p 存储成本可有50%的节省结构化压缩差异化压缩差异化副本策略分时计算框架p 问题提出 白天集群负载低 凌晨集群负载非常高,集群压力大 无法按时完成计算任务p 解决思路:将某一时间段的计算压力分散到全天

9、p 分时计算框架由框架完成分时计算,用户不感知,程序不需修改平峰填谷,集群资源得到充分利用,集群稳定性得到保证业务SLA得到更好保证 分区功能CREATE TABLE test2(Key INT,Value STRING)PARTITION BY LIST (Key)SUBPARTITION BY RANGE(Value)(SUBPARTITION spart_2011april VALUES LESS THAN (20110501),SUBPARTITION DEFAULT)(PARTITION part_0_5 VALUES IN (0,5),PARTITION DEFAULT)p支持类似

10、Oracle的语法p支持list、range、hash分区p最多支持两级分区p数据自动加载到对应分区p支持显式分区优化和隐式分区优化分析函数p 什么是分析函数分析函数为每一行数据针对一组数据行计算出一个特定聚合值,主要用于解决很多统计方面的问题p 分析函数实现框架p 分析函数带来的优势提升TDW SQL表达能力提高TDW分析效率方便业务迁移Oracle应用p 使用情况用户使用分析函数的频率约为join的1/3用户每月提交2000个左右的分析函数select col1,col2 ,sum(col1) over (partition by col2 order by col3)from tbl w

11、here col30LAG() OVER()LEAD() OVER()RANK() OVER()DENSE_RANK() OVER()ROW_NUMBER() OVER()SUM() OVER()COUNT() OVER()AVG() OVER()MAX() OVER()MIN() OVER()RATIO_TO_REPORT() OVER()规则系统p 什么是规则系统准确地说是查询重写规则系统把查询修改为需要考虑规则的形式,然后把修改过的查询传递给查询规划器执行p 视图的例子p 可用来快速实现TDW新的语法视图CTERollup、Cube等Agendap 腾讯公司的海量数据处理平台p 腾讯分布

12、式数据仓库(TDW)p TDW的技术点分享p TDW技术发展展望 TDW技术发展展望p 集群大规模化、提高稳定性NameNode高可用、高性能JobTrack高可用、高性能p 下一代TDWTDW2.0 NameNode的演进HDFS 0.20.xHDFS 0.20.xNameNodeNameNodeSecondarySecondaryNameNodeNameNodeHDFS 0.21.xHDFS 0.21.xNameNodeNameNodeBackupBackupNodeNodeHDFS 0.23.xHDFS 0.23.xBackupBackupNodeNodeNameNodeNameNode

13、FederationFederationNew DNew DFSFSMaster Master (primary) (primary) Master Master (secondary)(secondary)Meta Meta ServerServer(primary)(primary)Meta Meta ServerServer(secondary)(secondary)JobTracker的演进MapReduce MapReduce 1.01.0JobTrackerJobTrackerResouce Resouce ManagerManagerApplication Application

14、 MasterMasterMapReduce MapReduce 2.02.0 Resource Resource Manager Manager Application Master Federation Application Master Federation Standby Standby Resource Resource Manager Manager Job Status Job Status Serializer Serializer New New MapReduce MapReduce 下一代TDWTDW2.0 Execution EngineLogical AnalysorPhysical AnalysorLexer/ParserTDW2.0更符合规范或事实规范的定义大幅度加强代数优化更全面的统计信息搜集和使用更细致的物理优化规则DAG,not MapReduce进程池&中间结果不落地的小任务执行规则精心优化实现细节改进的shuffle sort实现Data Cube谢 谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号