SybaseIQ非结构化数据解决方案

资源描述

《SybaseIQ非结构化数据解决方案》由会员分享，可在线阅读，更多相关《SybaseIQ非结构化数据解决方案（8页珍藏版）》请在金锄头文库上搜索。

1、Sybase IQ 非结构化数据解决方案Sybase IQ 是 Sybase 公司推出的特别为数据仓库设计的关系型数据库。IQ的架构与大多数关系型数据库不同，它特别的设计用以支持大量并发用户的即时查询。其设计与执行进程优先考虑查询性能，其次是完成批量数据更新的速度。而传统关系型数据库引擎的设计既考虑在线的事务进程又考虑数据仓库（而事实上，往往更多的关注事务进程）。列存储IQ 以列存储数据，而不是行这与其他所有关系型数据库引擎广泛使用的存储方法方向相反。在其他关系型数据库内核中，数据库的一张表典型的表示为一条数据库页链，每一数据页中有一行或多行数据记录。在数据仓库应用中，从查询性能的观点出

2、发，这种存储方式是所有可能的数据存储方式中最不可取的。在 IQ 中，每张表是一组相互独立的页链的集合，每一页链代表表中的一列。所以有 100 列的表将有 100 条相互独立的页链，每一列都有一条页链与之对应，而不是象其他数据库引擎，一张表对应一条页链。列存储所固有的优越性在于：大多数数据仓库应用的查询只关心表中所有列的一个很小的子集，从而可以以很少的磁盘 I/O 得到查询结果。现在考虑这样一个例子，假设我们要得到所有生日在七月份的客户的名字和电子邮件地址。在一个典型的 OLTP 数据库引擎中，查询优化器将根据返回行的百分比（如1/12，在本例中，假设各月的生日都基本平均）来决定是否值得在该列上

3、使用索引。因此，典型的数据库引擎对该查询可能会做全表的扫描。为了对扫描的成本做一估算，我们假设每个客户的行记录为 3200 个字节，共有 1000 万个条记录。因此，表扫描必须读取 320 亿个字节的数据。IQ 数据库引擎可以只读取查询所需的列。在本例中，有三个相关的列：全名、电子邮件地址和出生日期。假设全名为 25 个字节，电子邮件地址为 25 个字节，出生日期为 4 个字节（日期以二进制做内部编码）。那么 IQ 只需要读取5400 万个字节的数据大约减少了 59 倍！数据压缩传统的数据库引擎不能以一种通用的方式进行数据压缩，主要是由于存在以下三个问题：1. 第一个问题是其按行存储的数据

4、存储方式不利于压缩。这是因为数据（大多为二进制数据）在以这种方式存储时重复并不多。我们发现，按行存储的数据，最多能有 5-10%的压缩比例；2. 第二个问题是对于许多的 2K 和 4K 的二进制数据的页来说，为压缩和解压缩而增加的开销太大；3. 第三个问题是在 OLTP 环境中，大量读取和更新混杂在一起。每一次更新需要进行压缩操作，而读取只需解压缩操作，大多数的数据压缩算法在压缩时比解压缩时慢 4 倍。这一开销将明显降低 OLTP 数据库引擎的事务处理效率而使得数据压缩的代价昂贵到几乎不能忍受。在数据仓库应用中，数据压缩可以用小得多的代价换取更大好处。其中包括减少对于存储量的要求；增大数据吞吐

5、量，这相当于减少查询响应时间。Sybase IQ 使用了数据压缩。这是由于数据按列存储，相邻的字段值具有相同的数据类型，其二进制值的范围通常也要小得多，所以压缩更容易，压缩比更高。Sybase IQ 对列存储的数据通常能得到大于 50%的压缩。更大的压缩比例，加上大页面 I/O，使得 Sybase IQ 在获得优良的查询性能的同时，减少了对存储空间的需求。1Sybase IQ 独特的优势面描述了 IQ 独特的技术特征所带来的一些关键的应用效果。查询效果瞬间响应IQ 通过列存储、革命性的位图索引方法以及智能的动态访问技术实现了快速的查询响应速度，比传统的数据库查询速度提高 10-1000 倍

6、。这主要表现在如下几个方面：减少磁盘 I/OSybase IQ 通过独特的列存储，索引与压缩技术，大大减少了查询中的磁盘 I/O 次数，其杰出的磁盘 I/O 效果带来了更快速的查询反应，更高的吞吐量和更低的成本。并行列处理 IQ 支持列向量的并行处理，这样，在查询中，大量的列向量将被并行扫描，从而达到显著降低响应时间的目的。智能优化 IQ 允许在每个列上建立多个索引，IQ 查询优化器在不同的使用情况下为查询选择不同的索引。提高 Cache 命中率大多数传统的关系型数据库执行决策支持类型的查询时会进行表扫描。表扫描使 Cache 命中率降低。列存储方式使Cache 命中率大大提高，查询响应加

7、快。IQ 并行结构对多用户查询的性能影响大多数传统数据库采用的并行表扫描方法在一个大型 SMP 上只有一个用户的情况下，效果是最好的，但在多用户查询环境中的性能会大打折扣。原因是现在的大多数 SMP 系统只能同时支持一至两个大型的并行表扫描，如果扫描数量增加，不是 CPU 资源不够，就是耗尽了 I/O 总线的带宽。每一个表的扫描同时也使数据库缓冲完全失效，因为大多数大型数据仓库应用的表扫描都远大于物理缓冲区的存储能力。IQ 独特的并行结构可以在大量的并发查询情况下提供优秀的查询性能。存储效果节约存储成本智能压缩技术，与精巧的索引结构和列存储结合，IQ 比其他数据库引擎拥有更好的存储效果。这将获

8、得更低的存储成本与更高的查询性能（因为系统仅需很少的磁盘 I/O 读取或写入任何给定的数据库块）。在传统的数据库中，为提高查询性能所建的索引占用的磁盘空间往往需要比数据本身需要的磁盘空间多出 3-10 倍。而 Sybase IQ 存储数据所占用的磁盘空间通常只是原数据文件的 40%-60%，是传统数据库所占用空间的几分之一。数据加载更高效率数据加载，包括向一个现有的数据仓库中增加数据，其加载效率大大高于传统的数据库。这是因为 IQ 的列存储、列并行处理与索引技术，为快速批量数据加载时提供了强大的技术保证。如果在数据加载时考虑索引的增量式加载，大多数传统的关系型数据库在数据的增量式加载方面

9、都存在严重的问题。这就是说，如果你一次装入了100GB 的原始数据并在其上创建了索引，再在此基础上增加 100MB 或几个 GB 的数据都会非常非常慢，以至于如果先删除所有的索引，再装入增加的数据，然后重新对整个数据库创建索引反而会快一点。Sybase IQ 在装入第二个 100MB 或 100GB 的时候的速度几乎与装入第一批数据一样快。这就给最终用户带来的更大的灵活性。Sybase IQ 使得索引的开销大大降低，并提供了一个新的开发环境，在这样的开发环境中，索引的使用可以比过去任何时候更充分。可扩展性Sybase IQ 的设计允许数据仓库从基础开始扩展，从很小扩展到非常巨大的规模。这一点已

10、经完全被验证，（详细情况请参考全球最大的数据仓库企业数据仓库参考架构一节）以及基准测试报告。可扩展性对 Sybase IQ 而言，举重若轻，你可以从一个小型的数据仓库开始，扩展到大型的数据仓库。也可以从大型开始扩展到超大型的数据仓库。大幅降低总拥有成本正如上面所述，Sybase IQ 大大节约了数据存储成本，而且通过其强大的可扩展性为企业提供了灵活的选择。另外，IQ 比传统的数据库更容易维护，不需要经常的人工调优，简单的扩展实现，快速的部署时间等等都大幅降低了企业开发数据仓库的总拥有成本。相关技术报导：搜狐新闻2012 对于 IT 行业来说，无疑是大数据之年。据 IDC 统计，2011 年数

11、据总量将达到 1.8 万亿 GB ，对这些海量数据的分析已经成为企业和机构非常重要且紧迫的需求。面临着占据不到 15% 的传统标准化、结构化的信息，企业已经无法捕捉正确的、全部的市场信息，剩下的 85% 非结构化数据则广泛存在于社交网络、互联网和电子商务之中。面对席卷而来的大数据浪潮，企业更需要一种全新的技术，帮助他们实时处理海量的复杂性信息，挖掘大数据分析的价值。在大数据分析中，传统的数据库部署已经不能承载 TB 数据，也不能很好的支持高级别的数据分析。“大数据的应用关键在于可高度扩展的分析，包括处理海量、高速、种类繁多以及无法预测的数据类型等极端情况”，Forrester 研究机构于 10

12、月发布的报告企业 Hadoop：新兴的大数据核心指出。在大数据分析领域，Hadoop 和 MapReduce 越来越受到关注。Hadoop 是一个开放源码的分布式数据处理系统架构，主要面向存储和处理结构化、半结构化或非结构化等真正意义上的大数据（通常成百上千的 TB 甚至 PB 级别数据）应用。MapReduce 能将大数据问题分解成多个子问题，将它们分配到成百上千个处理节点之上，然后将结果汇集到一个小数据集当中，从而更容易分析得出最后的结果。Sybase IQ 15.4 采用业内领先的 MPP 列式数据库和最先进的数据库内分析技术，并革命性地加入 MapReduce 与 Hadoop 集成

13、，以应对大数据时代的分析挑战，开启洞察关键业务的能力。Sybase IQ 15.4 正在打破数据分析的壁垒，彻底改变“大数据分析”领域。Sybase IQ 15创新性的列式数据库面对大数据分析的全新需求，Sybase IQ 的列式数据库无疑更能够驾驭大数据浪潮。相比于传统的“行式存储”的关系型数据库，Sybase IQ 使用了独特的列式存储方式，在进行分析查询时，仅需读取查询所需的列，其垂直分区策略不仅能够支持大量的用户、大规模数据，还可以提交对商业信息的高速访问，其速度可达到传统的关系型数据库的百倍甚至千倍。“随着 Sybase IQ 不断地在分析应用 POC 测试中拔得头筹，有时甚至超过其

14、他对手 100 倍之多”，Gartner 评价道，“Sybase IQ 逐渐成为从数据集市到企业数据仓库架构最令人渴望的DBMS（数据库管理系统）。”在此基础上，Sybase IQ 15 提升了核心的引擎基础架构能力，包括数据加载和查询性能、改进的安全架构、强大的集群管理和因数据分区而增强的管理等等。自 2009 年推出以来，Sybase 陆续发布了 Sybase IQ 15.1、15.2、15.3以至最新的 Sybase IQ 15.4 版本，每个版本都着力于增加新的核心能力以促进更深入的高级分析。Sybase IQ 15.3 在内置分析、全文检索等功能基础上，采用 PlexQ 技术的全共享

15、 MPP 架构，扩展后可支持实时访问数千个用户、多个混合工作负载和大规模数据集，将性能、分析、灵活性提高前所未有的高度，从而重新定义企业级业务分析。Sybase IQ 15.4 已将 Sybase IQ 的性能、分析、灵活性提升到了更高的级别，进一步推动了其在商业智能方面业已非常强势的增长。长期以来，Sybase IQ 这些技术革新使得 Sybase IQ 一直以来位于列式分析服务器市场的领导者地位。目前，全球已有 2,000 多名用户采用了 Sybase IQ 创新的列式处理方法，为其关键的分析和报表系统提供支持。在过去三年，每年都有大约 200 个新客户加入 Sybase IQ 用户阵营。

16、Sybase IQ 15 采用更灵活、效益更高的 PlexQ 技术Sybase 在 2010 年推出的 Sybase IQ 15.3 就采用了全共享架构的 PlexQ 技术，该技术重新定义了企业范围的业务信息，全共享架构可轻松支持涉及海量数据集、海量并发用户数和独特工作流程的多种复杂分析样式，大大增加了其效益。与其他 MPP 解决方案不同，Sybase IQ 的 PlexQ 网格技术能够动态管理可轻松扩展并且专用于不同组和流程的一系列计算与存储资源中的分析工作量，从而使其能够以更低的成本更轻松地支持日益增长的数据量以及快速增长的用户社区。基于成熟的 PlexQ 技术构建的 Sybase IQ 采用下图所示的三层构架：基本层：数据库管理系统 (DBMS)，这是一个全共享 MPP 分析 DBMS 引擎，是 Sybase IQ 最大的独特优势。第二层：分析应用程序服务层，其提供 C+ 和 Java 数据库内 API，并可实现与外部数据源的集成和联邦；包括四种与 Hadoop 的集成方法。顶层：Sybase

展开阅读全文

SybaseIQ非结构化数据解决方案

最新文档