Sybase_Sun数据仓库参考架构-1PB

上传人:苏**** 文档编号:320164999 上传时间:2022-06-30 格式:DOC 页数:22 大小:869.50KB
返回 下载 相关 举报
Sybase_Sun数据仓库参考架构-1PB_第1页
第1页 / 共22页
Sybase_Sun数据仓库参考架构-1PB_第2页
第2页 / 共22页
Sybase_Sun数据仓库参考架构-1PB_第3页
第3页 / 共22页
Sybase_Sun数据仓库参考架构-1PB_第4页
第4页 / 共22页
Sybase_Sun数据仓库参考架构-1PB_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《Sybase_Sun数据仓库参考架构-1PB》由会员分享,可在线阅读,更多相关《Sybase_Sun数据仓库参考架构-1PB(22页珍藏版)》请在金锄头文库上搜索。

1、性能测试报告数据仓库参考架构包含结构化和非结构化数据PB级数据仓库使用Solaris 10 OS, Sybase IQ 与 BMMsoft DataFusion 应Sun公司的邀请,InfoSizing于2007年7月对Sun 数据仓库参考架构的加载及性能进行了验证,Sun数据仓库参考架构使用Solaris 10操作系统、Sybase IQ、BMMsoft DataFushion,搭建于加州Menlo Park,Sun企业技术中心(ETC),我们定义并检测了一组基准测试。该数据库的装载容量达到了破记录的1PB原始数据,它总共包含6万亿行交易数据,超过1亿8千5百万文本查询类文档,比如电子邮件、

2、报表、电子表格以及其他多媒体对象。本次基准测试使用了容量空前的交易数据,描述了一个真实世界的场景全球金融交易网络中所产生的交易。将这些交易数据与相应的代表50万金融交易人之间电子通讯的多媒体文档进行合并。本次基准测试环境的配置,数据仓库的装载以及性能测试的执行均由InfoSizing独立验证,并对测试结果进行收集与分析。所附报告是一份关于此次测试的容量与性能结果的独立证明。此致总裁性能测试报告Sun 数据仓库参考架构使用 Solaris 10操作系统,Sybase IQ,BMMsoft DataFusion执行摘要 Sun 数据仓库参考架构,使用Solaris 10操作系统,Sybase IQ

3、分析型服务器以及BMMsoft DataFusion,配置了一台Sun SPARC 技术的Enterprise M9000服务器,带有三个Sun StorageTek 6540阵列,取得了如下具有重要意义的成就: 加载了1PB的原始数据(6万亿行股票交易记录),存于一个全面索引化的星型模型中;建立了一个全新的经独立验证的全球最大的数据仓库记录。 达到了 每天2850亿行的加载速度(每秒300万行),整个数据装载过程持续了3周多的时间。 仅仅需要不到2秒的数据就绪时间,新加载的数据即可被数据仓库使用。 用超过72TB的EDM数据(Email/电子邮件,Documents/文本,Multimedi

4、a/多媒体)替代一半的T(交易)数据,建立一个装载有572TB原始“EDMT”数据的数据仓库。 当使用1亿8千5百万文档(电子邮件,附件与其他非结构化文档)装载数据仓库时,加载速度达到每天26TB。 电子邮件加载速率达到每小时2百万封,文档加载速率达到每小时6百万份,仅仅消耗不到7的CPU,而M9000其余93的CPU可用作他途。 显著减少所需存储磁盘空间,将其直接转换为CO2排放量,则在由Solaris 10操作系统、Sybase IQ、BMMsoft DataFushion构建的数据仓库参考架构之生命期内,可减少CO2排放量高达90以上。配置说明Sun数据仓库参考架构所使用的“生产级”的环

5、境包括:一个单节点的Sun SPARC技术Enterprise M9000服务器,运行Solaris 10操作系统,与3台Sun StorageTek 6540存储阵列相连,使用光纤通道,并使用Sybase IQ12.7作为数据库平台。下图显示了该参考架构平台的具体配置:内存分配 Sybase IQ写节点运行于64核之上(总共128个线程),分配有大约100GB的主内存。 大约45GB的主内存用于Sybase IQ加载过程,作为数据库装载期间输入数据文件的缓冲。 BMMsoft DataFushion加载服务器运行于64核之上(总共128个线程),分配有大约90GB内存,其中50GB用于对Sy

6、base IQ的支持,40GB由DataFushion单独使用。 大约20GB主内存分配给Solaris 10,用于优化交换(Swapping)与页面(paging)增长到1PB创建数据库Sun 数据仓库参考架构使用一个星型模型建立,大约100个事实表,装载有真实的描述股票交易状况的T(交易)数据。6个维表被装载,提供一个宽范围的表基数(从5行到接近400万行)。下表列出了维表的装载情况。维表行数装载事实表在Sybase IQ中,创建了100个事实表。每个表大约装载了120多个加载单元,如下表所示:加载单元_输入数据文件原始文件大小字节102,814,873,296记录数百万508记录宽度列1

7、8分隔符大小(Size of Delimiters)字节9,146,722,464带分隔符的大小(Size with Delimiters)GB95.8纯数据大小GB87.2一组真实世界的交易数据被当作模板,用以在每个加载单元里合成性的创建数据。保证生成的数据仓库的分配、基数、数据相关性能够代表一个真实世界的生产环境。实现PB级规模的里程碑100个事实表的装载大约用了6周的时间,其中一半的时间用于系统的配置与调优,其余时间(大约3周)用于将数据加载到数据库表中。平均而言,这些表的数据加载速率为每小时1.8TB原始数据,每天加载超过2500亿行数据。总体而言,超过1PB的纯原始数据(也就是说,不

8、包含实际数据的字节并没有计算在其中)被加载到表中。在本例中,纯原始数据不包含任何用于列之间分割的字节。而数据库是从1130 TB的包含分隔符的输入文件装载的,这些文件大约包含1029TB的纯原始数据(即去掉列分隔符)。除了股票交易记录之外,128GB的电子邮件、文本、多媒体文档也通过DataFusion被加载到数据仓库中。下表显示了Sun 数据仓库参考架构1PB的记录集的装载情况:PB级数据加载_原始输入数据加载单元数数据文件12081股票报价记录数万亿6.1原始数据大小(含分隔符)TB1,130纯数据大小(不含分隔符)TB1,029纯输入数据大小PB1.01_平均文本大小KB670非结构化文

9、本数量百万0.2非结构化数据大小GB128_总数据大小TB1,157PB 1.13Sybase IQ 存储T数据与索引空间GB162,639TB159压缩 84.57%在上述装载完成只后,定义了一个全视角的视图以形成对100个事实表的“UNION ALL”,建立一个对全部加载的6万亿行数据的单一的访问点。然后对这个PB级的企业数据仓库执行一组性能评估测试。这些测试结果将在随后介绍。PB级性能评估查询执行时间通过执行多表查询进行验证,牵涉到全事实表视图以及一些维表。这些查询主要验证该企业数据仓库的可操作性及其响应时间是否保持在可接受的范围。共有6条不同的查询被执行,同时不断增加并发数(从1到50

10、)。这些查询包括: “Active”与“Sector”查询:简单查询,基于T数据 “Short”与“Growth”查询:复杂查询,基于T数据 “Secret”与“Popular”查询:复杂查询,基于混合的“EDMT”数据下图描述了基于这个PB级数据仓库运行这6个查询所发生的响应时间:新数据的就绪时间在一个新数据不断实时生成的环境中,新数据加载到数据仓库以及能被查询所见的速度是一个关键的指标。一段新的数据实时生成与它可被查询所见之间的时间间隔称为“就绪时间”。简单查询的响应时间在我们重点考察就绪时间的同时,也必须提到另外一个指标,那就是对那些基于这个PB级数据库的交易、电子邮件或者文档进行的“P

11、in-Point”查询的响应时间,它应该保持在秒以内。在执行这些查询之时,新的电子邮件消息同时产生,并由DataFusion捕获,然后传送到Sybase IQ中以供数据仓库使用。新邮件生成到其可被查询访问之间的时间间隔(就绪时间)将会被评估。该测试验证了Sun 数据仓库参考架构如何获得在新邮件消息生成到可被查询访问之间最小的时间延迟。这是首次基于该PB级数据库执行的对邮件消息的就绪时间进行评估。下图描述了测试结构:经测试,该PB级数据库的电子邮件的平均就绪时间不到2秒。事实上,最长的就绪时间也不到4秒。新股票交易数据的就绪时间 新的复杂的股票交易数据的就绪时间也将被评估。不断增加并发数量(从3

12、到50),执行相应的查询。每个查询针对特定股票的现有报价。在这些查询执行之时,新的股票交易也不断完成,记录也将传送到Sybase IQ中。本测试验证了Sun数据仓库参考架构如何使用Solaris 10操作系统、Sybase IQ、BMMsoft DataFusion实现了在反映新交易的新记录生成到它可被查询访问之间的最小的时间延迟。新的交易记录从生成到可被查询访问之间的时间(就绪时间)基于EDMT数据仓库进行评估。下图描述了测试结果:基于该PB级数据库,新交易数据的平均响应时间不超过5秒。装载非架构化数据随后,50的T(交易)数据从数据仓库中卸载,以腾出空间用于加载另外的更有意义的“EDM”数

13、据(电子邮件、文本与多媒体)。“EDM”数据由三种类型的非结构化数据对象组成:电子邮件、小型文档(比如纯文本)以及大型文档(比如视频片断、图形图像以及格式化文本)。具体的非结构化数据加载显示如下:总数电子邮件小型文档大型文档平均对象大小KB0.3432.47203,205加载的对象百万18559.01250.374加载的原始大小GB72,72119.329572,406 加载速度MB/秒0.1894317对象/小时新的“EDM”数据在加载期间仅仅占用了7%的CPU使用率,也就是说仅仅使用了64颗芯片中的大约6颗。混合的“EDMT”数据加上剩余的T数据,该PB级数据仓库的最新加载情况如下图所示:混合EDMT数据装载原始输入数据加载单元数数据文件5476股票交易记录数万亿2.8纯T(交易)数据大小TB467EDM文档数百万185纯EDM(非结构化)数据大小TB71.02混合( EDM+T)数据大小TB537.5非结构化“EDM”对象通过DataFusion存储到Sybase IQ中。某些文档是各种不同格式和内容的独立文件,而有

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 开发文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号