{环境管理}针对大数据量环境下分析型应用的支持方案

资源描述

《{环境管理}针对大数据量环境下分析型应用的支持方案》由会员分享，可在线阅读，更多相关《{环境管理}针对大数据量环境下分析型应用的支持方案（94页珍藏版）》请在金锄头文库上搜索。

1、DTCC2011 DM 针对大数据量环境下分析型应用的支持方案大纲一个实际案例挑战和解决方案下一步工作规划 DTCC2011 DTCC2011 一个实际案例案例简介 DTCC2011 海量数据基于已有硬件投资单服务器节点操作库和分析库合并以查询分析为主，兼顾少量数据维护文本硬件与拓扑千兆交换机 DTCC2011 应用服务器数据汇总文本数据源文本 Excel 数据数据清洗与入库数据库服务器 P550 Cpux4 Mem32GB P550 Cpux4 Mem32GB 源源 16X1TBSAS RAID5 案例简介-数据 DTCC2011 以常规数据为主

2、，主要为数值、字符串、时间类型日增长数据量为约 56G，3 亿条元组当前数据量 3TB 最大单表为计费表，目前约 150 亿条记录数据保存 20 年后归档为历史数据在线数据规模将超过 400TB 典型业务流程 DTCC2011 源数据清洗入库分析统计型查询第一步过滤的筛选条件不确定试错式的查询分析过程，成功后固化，一般包含 20 多个步骤大规模的连接查询、子查询、联合查询、数据分组与排序、临时结果集与临时表等复杂 SQL 不多，但 IO 非常大日常数据维护手工修改记录内容批量删除定期维护案例需求 DTCC2011 关键在查询性能第一个过滤步骤筛选字段由用户随

3、机定义，因此无法使用索引一般会得到千万级别的结果集大量的多表连接查询数据装载性能初始入库 48 亿条，近 1T：限 48 小时，相当于 3 万条/s 后续每 3 天入库一次，9 亿条，168G，限 10 小时内完成 DTCC2011 挑战-核心是性能原有产品难以支持分析型应用DTCC2011 只支持行式存储查询优化器比较简陋虚拟机实现不尽合理物理存储设计有待优化日志系统过于复杂不能充分利用多机资源提升性能数据分片技术不完善于 2009 年开始新一代产品 DM7 的研制 DTCC2011 实验室原型技术积累阶段实现各类标准持续的技术积累 5.65.6

4、引入物理操作符, ,虚拟机 6.06.0 引入高级特性和 oracleoracle 兼容特性 5 5 DM7DM7 2011 稳定性及功能与开源系统有差距 3 3 DM5.6DM5.6 4 4 DM6DM6 2009 对 DM4-DM6 的技术总结融合列存储与行存储基于向量数据的 1 1 DM1-DM3DM1-DM3 2 2 DM4DM4 20042007 执行内核原生的 MVCCOLAP 应用的支持 1988- 2003 对于性能的理解 DTCC2011 应用系统的设计表达式计算优化器综合性能数据/ /控制权传递 I/OI/O 效率并发/ /并行数据控制权传递

5、-批量技术DTCC2011 向量数据处理在数据泵一次传送一批数据减少控制转移的 CPU 损耗；有利于批量的表达式计算传统的数据传递 PROJECTPROJECT FILTERFILTER 一次只传递一条记录每个操作符一次只处理一行记录 1 11 11 1 控制权需要反复传递 SCANSCAN 向量式的数据传递 PROJECTPROJECT 减少控制权限的反复传递提升 CPU 的有效利用率 FILTERFILTER 便于表达式批量计算 SCANSCAN 批量技术-数据入库 DTCC2011 将系统的初始数据入库原有 BCP 接口达到 5000 条/s，仍无法满足要求改进：在服

6、务器端实现批量，减少执行流程中的控制跳转效率提升倍批量技术-全表更新 DTCC2011 普通批量普通批量绑定针对大表更新的特定的批量绑定消息计划生成生成特定计划，减少执行流程单趟扫描一个 ID 进行更新，执行 20 万次 ID 进行排序，单趟扫描 20 万个 ID 并进行更新性能提升 100 倍以上，控制在 2 秒以内批量技术-LIKE 谓词 selectcount(*)fromorderswhere o_mentnotlike %special%requests% DTCC2011 DBMSO11g:3.3 DBMSS2005:10 DM7: 0.4 ord

7、ers:1,500,000 记录 cpu2.2G,多次执行 DTCC2011 一个表达式出现多次 Selectsum(2*c1),sum(3*(2*c1)fromt 只计算一次，结果缓存 v1=2*c1； Selectsum(v1),sum(3*v1)fromt 类似思路：中间结果重用一个复杂查询在一条 sql 语句中使用多次的情况将复杂查询提取，并将结果缓存，多次使用批量表达式计算 for(i=0;in;i+)for(i=0;in;i+) r=(int64)opr1i+opr2;r=(int64)opr1i+opr2; if(r!=(int)r)if(r!=(int)r) return

8、EC_DATA_OVERFLOW;returnEC_DATA_OVERFLOW; resiresi=(int)r;=(int)r; 一次计算一批数据利用 CPU的 CACHE 利用 CPU的 SIMD特性避免传统 DBMS 的函数反复调用代价接近于 C 的效率比一次一行模式快 10-100 倍以上批量尺寸对性能的影响 SF=1,TPCHQ1 BDTA_SIZE:可配置的批量大小参数增大 BDTA_SIZE 可以有效的提高执行效率 TPCHDM7 DBMS O11 PGSQL8.3 DBMS S20 05 Q11.3149.0916.0112.87 Q20.160.04

9、60.190.14 Q30.8621.619.302.78 Q40.989.030.800.68 Q51.49.054.611.58 Q60.7892.720.96 Q71.6111.7319.542.35 Q82.30.282.972.01 Q931.6118.015.45 Q101.369.165.832.23 Q110.1944.670.550.46 DTCC2011 优化器-分析器流程 DTCC2011 SQLSQL 脚本语法分析语法树语义分析 SFWSFW 结构关系代数变换关系树代价优化优化了的关系树物理计划生成执行计划智能优化器基于多趟分析的代价优化器语义分

10、析、代价优化过程分离灵活的计划变换控制基于时间单位(ms)的代价计算解决统计信息的使用性问题增加频率直方图增加高度直方图的桶数 DTCC2011 查询优化：关系变换 DTCC2011 SFW 结构转换为关系树 Select:ID,nameSelect:ID,name From:TFrom:T SFW 结构投影(PROJECT) 连接(JOIN) 半连接(SEMIJOIN) 选择(SELECT) 基本表(BASETABLE) Where:ID=10Where:ID=10 PROJECTPROJECT (ID,name)(ID,name) SELECTSELECT (ID=10)(I

11、D=10) BASE_BASE_ TABLE(T)TABLE(T) 关系树查询优化：关系变换的关键DTCC2011 消除子查询，“平坦”的关系树子查询一律转化为半连接（SEMIJOIN）例：selectfromT1wheret1.idin(selectIDfromT2) PROJECTPROJECT SEMISEMI JOINJOIN T1T1T2T2 查询优化：待选关系树的生成DTCC2011 考虑三个因素 A.确定的连接次序 B.确定的卡特兰 2 叉树形状 C.是否下放过滤条件采用临时结果减少重复计算代价模型基本覆盖所有情况对连接表的个数非常多的情况,特殊处理查询优化：统计信

12、息 DTCC2011 记录数据分布情况，用于精确行数估计，特别是数据分布不规则的情况，对基数及代价计算有重大影响频率直方图：不同值较少 500 450 400 350 300 250 400200238432300 200 150 100 50 0 124167 w_id=0w_id=1w_id=2w_id=3w_id=4w_id=5w_id=6 等高直方图：不同值较多 4050 4000 4002399040323980 3950 3900 3850 3800 39503960 3888 DTCC2011 列存储: 数据按列存储结合自适应压缩技术与批量计算技术紧密结合列存储优缺点

13、大幅提升扫描性能适合批量装载与删除不适合频繁的插入、删除和更新融合列存储和行存储提供按列存储选项结合分区技术同时适应 OLAP 和 OLTP 应用需求 I/O 效率行存储优化简化物理记录格式字段物理次序与逻辑次序分离多 buffer 类型常驻内存和常规方式淘汰用户可以指定批量读：预处理支持垂直分区和水平分区 DTCC2011 提高并发度支持并行插入的物理数据存储并行备份和恢复分区技术及相应的并行查询操作符号 DTCC2011 典型场景一：大结果集 DTCC2011 场景描述某表 T，31 个字段，48 亿条记录随机基于某字段筛选：SELECT*FROM

14、TWHERE FLD1=753 查询符合条件的结果集达到千万条记录分析 SQL 语句非常简单，没有更优的等效语句结果集筛选条件不确定，无法使用索引服务器内存为 32G，在扫描的过程中必然出现页面淘汰由于基础数据量大，因此即使命中率不高（0.2%），也会生成 960 万条记录的结果集典型场景一：大结果集 DTCC2011 从 3 个方向入手，提升全表扫描的 IO 效率批量技术降低结果集处理的时间消耗调整数据页读取策略典型场景一：大结果集 DTCC2011 返回结果集策略改进优化前根据通信块大小决定结果集分批次返回的数量第一批结果集返回后，自动完成后续结果集获取和返回优

15、化后由应用设定第一批结果集的大小和返回的时机当返回第一批结果集后，工作线程暂停 SQL 查询请求，直到下一批结果集请求到来或开始新事务效果快速返回部分结果集，提高用户体验避免自动返回所有结果集，降低服务器资源消耗典型场景一：大结果集 DTCC2011 调整数据读取策略数据页（page）是数据读写的单位优化前的全表扫描：按页读取，每次 IO 只扫描一个页优化后：一次扫描多个页，减少 IO 数量测试：经过优化后，磁盘的吞吐量提升 1 倍典型场景二：大表连接 DTCC2011 场景描述表 T1，31 个字段，5000W 条记录，数据类型包括 int、 varchar、da

16、tetime、Dec；表 T2,15 个字段，500W 条记录，数据类型包括 varchar、datetime、Dec； SELECTT1.NAME,T2.TITLEFROM T1,T2WHERE T1.PERSONID=T2.PERSONIDANDT1.SEX=M; 连接查询字段由最终用户临时指定，表上未建索引结果集不大，但查询表数据量大，连接查询响应时间陡增典型场景二：大表连接 DTCC2011 分析行存储特性：连接查询所连接的字段在数据页中的存储非连续，进行连接查询，需将所有数据页读到内存，IO 消耗巨大；连接匹配时，要对读入缓存中的所有页进行扫描。行存储： C1 C2 Cn C1 Cm 连接列分散在每个数据页中 Cn+1Cn+1页 1Cn+1Cn+1页 N 典型场景二：大表连接 DTCC2011 优化方向：列存储按字段存储连接列被集中存储 Cn+1Cn+1Cn+1Cn+1 页 1 Cn+1Cn+1

展开阅读全文

{环境管理}针对大数据量环境下分析型应用的支持方案

最新文档