大数据时代大数据已融入生活的方方面面_光环大数据培训

资源描述

《大数据时代大数据已融入生活的方方面面_光环大数据培训》由会员分享，可在线阅读，更多相关《大数据时代大数据已融入生活的方方面面_光环大数据培训（8页珍藏版）》请在金锄头文库上搜索。

1、光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/硬件是如何影响数据库的发展硬件是如何影响数据库的发展_ _光环大数据数据库培训光环大数据数据库培训光环大数据培训机构，这是数据库权威，图灵奖获得者 Michael Stonebraker 的一次访谈。在这篇访谈里，他主要讨论了硬件的发展是如何影响的数据库的。读完的感受是私货不少，有为其新公司 Tamr 打广告的嫌疑，但是作为数据库鼻祖，他的一些观点还是很值得讨论和回味的。所以花了几个小时翻译出来，以飨读者。匆匆翻译，谬误肯定不少。欢迎大家在评论里指出。在 20 世纪 70 年代和

2、 80 年代，加州大学伯克利分校成为软件技术的温床的原因之一是 Michael Stonebraker。他是关系数据库技术的先驱之一，也是业界最大和最具声望的行动派之一也是最连续多产的企业家之一。和其他数据库开发者一样，Stonebraker 也读了 IBMer Edgar Codd 的早期关系数据模型论文。从 1973 年开始，在 IBM System R 数据库的基础上 Stonebraker 开始了 Ingres 数据库的工作。这项工作最终成了后来的 DB2。在进入这个领域数年之后，Stonebraker 也开始了 Oracle 的同名数据库开始工作。在早期数据库耕耘数十年之

3、后，Stonebreaker 帮助创建了现在常用的 Postgres。 Postgres 是 Ingres 下一代产品。同时，他也是关系数据库制造商 Informix 的首席技术官。 Informix 在多年前被 IBM 收购；也最近刚刚被淘汰的数据库产品。更重要的是，他是共享数据仓库的 C-store 的研究人员之一。这个数据库最终被商业化为 Vertica。几年之后，Stonebraker 和朋友们开始了 H-Store 的工作。这是一个分布式，基于内存的 OLTP 系统，最终也被商业化为 VoltDB。 Stonebraker 从来没有一个人静静坐着，他一直努力创

4、建一个基于数组名为 SciDB 的的数据库。这个数据库是针对技术应用程序的需求进行了明确优化调整的。这个数据库是跟数组相关的，而不是传统关系模型中的表格。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/这是作为麻省理工学院计算机科学的兼职教授的，并一直在数据库世界里贡献自己力量的 Stonebraker 的一个非常简短和过于简单的历史。有了如此多的新的计算，存储和网络技术进入该领域以及如今可用的许多不同的数据库和数据存储技术，我们认为与 Stonebraker 接触将是一个好主意，以了解这些可能对未来数据库的影响。Timoth

5、yTimothy PrickettPrickett MorganMorgan：在数据和存储方面，某种程度上，你熟知一切，所以我想要深入了解，了解新的计算和存储硬件（特别是持久的内存）上市，将如何影响近期和远期数据库的。与现在截然不同的是，让我们假设 DRAM 和闪存再次变得更便宜，像 3D XPoint 这样的技术在 SSD 和 DIMM 形状因素中都会上市。这些硬件上的进步使内存更大，更便宜，并且闪存获得比磁盘驱动器更接近需要被计算的数据。我们是否需要重新考虑把所有东西都塞进内存的想法吗？毕竟新技术开辟了很多可能性。MichaelMichael StonebrakerSton

6、ebraker：问题是不断变化的存储结构以及它与数据库的关系。我们 OLTP 开始吧。在我看来，这是一个主要的内存系统，现在有一大堆新兴的公司正在处理这个市场。1 TB 的大小的 OLTP 数据库是一个非常大的数据库，但是 1 TB 的内存已经不是什么大不了的事情了。所以我认为将 OLTP 完全放在内存中是任何关心性能的人的选择。如果您不关心性能，估计在手表上运行数据库也是个不错选择。在数据仓库领域，所有的驱动力都来自于有着千万亿次计算( petascale) 的数据仓库。这个市场也将将无限期地成为一个基于磁盘的市场。业务分析师和数据科学家一直想要将越来越多的数据关联的想法。存储

7、与数据仓库的数据大小的增速远远超过磁盘驱动器越来越便宜的速度。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/当然，这个反例就是 Facebook 这样的公司。如果你公司足够大，你可能会有不同的策略。 Facebook 一直在 SSD 上一投资了很多钱。SSD 是用于存储热数据。冷数据将永远在磁盘上，或者直到一些其他真正便宜的存储技术。如果您拥有 1 TB 的数据仓库，那么 Vertica 社区版可以免费使用。低端系统软件将基本上免费。如果你关心性能，它将在内存中；如果你不关心性能，它将在磁盘上。看看数据仓库供应商是否投入更多的

8、多层次存储层次结构是非常有趣的。TPMTPM：当这些持久化内存技术（如 3D XPoint 或 ReRAM）进入组合时会发生什么？MichaelMichael StonebrakerStonebraker：我没有看到这些是威胁力的。因为这些所谓的持久化存储是不够快而去取代内存的。而且它们不够便宜，无法替代磁盘，也不足以替代闪存。现在还有待观察：3D XPoint 将会如何快速发展以及多么便宜。我预见在两级 store 和三级 stroe 上运行的数据库，但我怀疑他们将能够管理四级 store，因为这样做的话对于软件工程而言太困难了。但是存储层次结构将会在存储层次结构中确定什么样的内

9、容。主内存将在顶部，磁盘将在底部，我们知道，并将有通用的系统之间的东西。对于 OLTP 系统，将会在主内存，故事结尾，像 VoltDB 和 MemSQL 这样的公司是主要的内存 SQL 引擎。对我来说，有趣的是，一旦我们可以训练足够的数据科学家去做，商业智能将被数据科学所取代。商业智能是 SQL 聚合友好的面孔。数据科学是预测分析，回归，K 均值聚类等等，它们都是数组上的线性代数。数据科学如何整合到数据库系统中是关键。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/现在，这是蛮荒的西部（美国历史上的西部拓荒运动）。现在流行的是

10、Spark，但它完全与数据存储断开连接。因此，一个选择是数据科学只是数据库系统外部的应用程序。另外一个选择是基于数组的数据库系统将变得流行，SciDB，TileDB 和 Rasdaman 是三种这样的可能性。不清楚数组数据库的广泛应用，但是在基因组学中肯定会受到欢迎，这些都是使用数组数据。除此之外的选择是，目前的数据仓库供应商将允许用户采用数据科学功能。他们已经在 R 中允许用户定义的功能。尚待观察 Spark 将会发生什么无论今天如何，明天都会有所不同。所以在数据科学中，这是未开垦的处女地。TPMTPM：我们讨论了不同的技术，以及它们如何插入存储结构。但是计算结构呢？我正在考虑

11、GPU 加速的数据库，如 MapD，Kinetica，BlazingDB 和 Sqream。MichaelMichael StonebrakerStonebraker：这是我更感兴趣的事情之一，如果要进行顺序扫描或浮点计算，GPU 会非常快速。 GPU 的问题是如果您将所有数据都存储在 GPU 内存中，那么它们的速度非常快，否则您必须从其他地方加载数据，而加载是瓶颈。在你可以加载到 GPU 内存的小数据上，他们肯定会在低端获得您想要超高性能的应用程序。数据库空间的其余部分，还有待观察 GPU 会如何流行。对我来说最有趣的是，网络速度越来越快，CPU 的速度越来越高，内存越来越快。基本

12、上目前所有的多节点数据库系统都是在网络瓶颈的前提下设计的。原来，没有人可以全部利用 40 Gb/s 以太网。事实上，在过去五年中，我们已经从 1 Gb/s 升级到 40Gb/s 以太网，而同时，虽然 8 个节点的集群已经变得更快一些，但是几乎不到 40 倍，内存也是这样。所以网络可能不再是瓶颈了。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/TPMTPM：当然没有 100 Gb/s 以太网有魅力，供应商们表示可以提供可在未来一两年内驱动 200 Gb/s 甚至 400 Gb/s 的 ASICs。MichaelMichael St

13、onebrakerStonebraker：这意味着每个人必须要都重新考虑他们的基本分区架构，我认为这将是一件大事。TPMTPM：那个拐点什么时候到呢，多少带宽就够了？当您可以执行 400 Gb/s 甚至 800 Gb/s 的时候，选择一个的具有 300 纳秒延迟的协议？MichaelMichael StonebrakerStonebraker：我们来看看 Amazon Web Services 的例子。机架顶部的连接通常为 10 Gb/s。图形为 1 GB/s。通过比较，节点之间的交叉点是无限快的。但是网络那么快，磁盘能这么快的把数据拿出来吗？如果数据是从磁盘读取的，每个驱动器是 100

14、 MB/s，RAID 配置为十个并行的磁盘才勉强跟上网络的数独。所以真正的问题是相对于网络，存储有多快。我的一般怀疑是，网络进步将至少与存储系统一样强大，数据库系统在这一点上将不会受到网络的约束，同时也会有一些瓶颈。如果你在做跟数据科学相关的工作，则瓶颈是 CPU。因为你的工作需要进行奇异值分解，这是相对于查看的单元格数量的三倍运算。如果你正在做传统的商业智能的工作，那么存储可能是限制；如果你做 OLTP，内存则会成为局限。使用 OLTP，每秒执行 100 万次交易是小事情。这些操作可以在 VoltDB 和 MemSQL 等上进行。 Oracle，DB2，MySQL，SQL Serv

15、er 和其他人每秒无法做 100 万次事务，这些软件开销太大了。我们在 2009 年写了一大堆文章，我们配置了一个开源数据库系统，并对其进行了详细的测量，我们假设所有的数据都适合主内存。所以基本上一切都在缓存光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/ 光环大数据光环大数据 http:/中。我们想衡量不同数据库功能的成本。在数量上，管理缓冲池是个大问题。一分钟你有一个缓冲池，那么你必须从中获取数据，将其转换为主内存格式，对其进行操作，然后将其放回来，如果它是一个更新，并找出哪些块是脏的并保持 LRU 列表和所有这些东西。所以这是大约三分之一的开销。多线程是开销的三分之一，数据库系统有很多关键部

展开阅读全文