纵横大数据云计算数据基础设施

上传人:第*** 文档编号:121803312 上传时间:2020-02-26 格式:DOCX 页数:11 大小:18.86KB
返回 下载 相关 举报
纵横大数据云计算数据基础设施_第1页
第1页 / 共11页
纵横大数据云计算数据基础设施_第2页
第2页 / 共11页
纵横大数据云计算数据基础设施_第3页
第3页 / 共11页
纵横大数据云计算数据基础设施_第4页
第4页 / 共11页
纵横大数据云计算数据基础设施_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《纵横大数据云计算数据基础设施》由会员分享,可在线阅读,更多相关《纵横大数据云计算数据基础设施(11页珍藏版)》请在金锄头文库上搜索。

1、简介大数据的概念很火,但人们对它的认识却是混乱的:有人说大数据就是指所有的数据,有人说大数据是指线上行 为、日志等半结构/非结构化的数据形态,有人说大数据就是以Hadoop为代表的新技术到底什么是大数据?同样风风火火了很久的云计算与大数据有什么 关系?令人眼花缭乱的众多大数据技术的本质是什么?各有什么优缺点?争论不休的“小变大 ”与“大变小”技术策略到底孰正孰邪?企业究竟应该如何定位与使用大数据,难道是为了Hadoop而 Hadoop?未来的技术方向究竟如何? 纵横大数据(云计算数据基础设施)/云计算实践指南丛书结合现代企业数据管理实践,从策略、技术、应用、企业数据架构等多个维度,体系化地对大

2、数据及 相关技术进行了全面深入的论述:首先对大数据相关概念予以澄清;接着深入剖析各种大数据技术的内在本质,指出其各自的优缺点、适用场景与相互关系;同时对 大数据技术“分”与“合”这两种广受争议的技术策略的内在联系进行了分析与讨论,明确指出现代数据管理技术的发展趋势;最后结合大数据时代企业新一代数据 架构规划的实际,对大数据及相关技术在企业数据体系中的具体定位给出了切实可行的建议,并且面向云数据中心建设,提出了大数据云云计算数据基础设施的 概念与方法。序言“云计算”与“大数据”应该说是目前IT界最为热门的两个概念了。云计算以各种软硬件资源新的消费与交付模式为核心理念,被普遍认为将会成为未来社会最

3、为深远的革新。而现实却是:在多“云”的天空,成功的实践却少得可怜,致使其很多情况下只是充当了一个时髦的噱头。令 人遗憾的是,如今风头已远远盖过“云计算”的“大数据”,其现实情况与此类似。大数据概念最初是伴随着Hadoop等开源技术的推广而出现的,在国内外众 多互联网公司依靠它们取得巨大成功的强力推动下,传统数据管理技术的地位受到了严重的挑战,似乎不知Hadoop、不用Hadoop就会落后!但如何才能 在本企业或者某个具体需求中正确有效地使用这些新技术呢?这至今依然是众多企业技术决策者的困惑。大多数企业目前对大数据潮流的热烈响应其实是 “雷声大,雨点小”,其中相当一部分是不分青红皂白,纯粹为了H

4、adoop而Hadoop,很少有产生实际成效的案例。本书认为,要正确回答这些问题,给 出合适的决策,必须对这些技术本身进行较为深入的了解与分析,然后结合自己企业的实际,做出自己的判断。任何其他企业的经验都不可以照搬照抄;任何资料中 关于各种技术的适用场景描述,即使是正确的,也都有其特殊的上下文环境,不可以当成普遍真理去盲目遵从。这里所说的对技术的了解,并不是指具体如何去使用 它,而是指其内在本质、特点与相互联系,这些往往比使用方法更重要,也是本书区别于其他大数据资料的主要特点之一。首先,让我们看看云计算与大数 据的关系,目前人们对此的理解更是混乱不堪,有人认为两者完全不同,有人则认为大数据技术

5、其实就是云计算。对“云”,最开始,人们普遍认为那是一种采用一 堆闲散资源完成一件重大任务的技术。后来,人们又意识到现代社会对“云”的诠释,其实更多的是指一种以服务为主的商业模式,而不是一种技术。现在,绝大多 数人对“云”的理解停留于此,认为“云计算”与技术无关的人大都是这种思路。但在对“云”业务模式的实践中却发现,要搞“云”服务,必须从技术手段与商业 模式两个维度同时入手才有意义,只拥有其中任何一个方面都是不行的,甚至可以说前者要比后者重要得多。大多数情况下,在“云”能适用的领域内,如果没有前 者,后者所能提供的服务水平自然也就很有限,从而也就自然失去了“云”的含义。所以说,云计算的本质是商业

6、模式,但其核心却仍然是技术问题。而云 在技术层面的核心问题又是什么呢?有人认为是“小变大”的分布式计算,有人认为是“大变小”的虚拟化,而本书认为,云计算最核心的问题是数据,具体地讲, 是现代业务环境下的数据管理问题,也就是能实现海量、多类型、高负载、高性能、低成本需求的数据管理技术,这实际上就是传统数据管理技术在现代的最大挑 战。这其中最耀眼的,就是各种新兴的大数据家族成员的出现,包括开源体系的Hadoop、各种NoSQL数据库、NewSQL数据库(关系数据库联邦)、 分布式文件系统等,甚至还包括非开源体系的新一代关系数据库。这样看来,“大数据”应该是“云计算”业务模式得以实现在数据管理层面的

7、核心技术支撑,两者 密不可分。而从纯技术的角度看,“云计算”概念最初出现时就是指采用网络互联起来的设备共同完成一项庞大任务的技术策略,而Hadoop等流行大 数据技术的核心思路大多如此。因此,我们又可以说:“云计算”是大数据的技术实现方法。这便是云计算与大数据的联系,两者无论是在业务上,还是技术上,都 是相互依存的。一句话,无论叫什么名称,其实都是代表现代IT发展的最新进展而已。再来看看各种流行的大数据技术本身,包括 Hadoop,NoSQL,NewSQL,甚至一些新一代的关系数据库等。对它们,在现代数据管理领域内,目前的状态却是:人们普遍困惑的并不是能不能掌 握这些技术的具体用法,而是到底什

8、么时候,在什么场景下,如何定位与使用这些技术?这主要表现在以下几个方面。一是如何定位新旧技术。即指新兴的以Hadoop为代表的开源技术,与传统的关系数据库技术,到底是新技术彻底颠覆传统技术,还是两者共存?如果是共存,如何共存?这是目前各个企业普遍感到困惑的最重要的问题。二 是部分技术人员对新事物只是盲从。大家在应用实践中或多或少地会遇到一些困难,于是很多技术人员就会把希望寄托在新出现的技术上,认为只要一用上如 Hadoop或NoSQL这些新东西,目前的问题就会迎刃而解。接下来就立即紧张地投入到新技术的学习与使用上去,而不做是否适合自己需求的合理判断。很 显然,这种对新技术的崇拜是盲目的。三是各

9、种技术之间出现了互相攻击、互相否定的态势。一度以来,传统的主流关系数据库(如Oracle,DB2 等)在实践中出现了一些问题,主要是对高负荷环境下的海量数据应用出现了力不从心的现象,同时,其水平扩展性的限制与高昂的成本问题使客户越来越难以忍 受。于是,一些非关系型的NoSQL数据库,或者一些低端数据库集群方案(如MySQL集群)就在一些场合替代了主流的商业数据库,并且表现出很优秀的性 价比;另外,有些企业在分析领域也出现了以Hadoop MapReduce等开源产品全面替代关系型数据仓库的现象。于是,便出现了一种思潮,认为关系数据库最终将退出历史舞台。而另有一部分人则认为,所谓极 其成功的新技

10、术,只是昙花一现的暂时现象而已,传统的关系数据库经过改良以后,依然会是数据管理领域的王者,其他的技术会像30多年前关系数据库与其他数 据管理技术之争的结果一样,逐渐消失。这些观点中,大多都是凭直觉、凭感觉、凭个人经验的判断得出,虽然不能说是武断,但如果没有令人信服的技术分析做支 撑,就很难说谁对谁错。四是新技术本身在实践中也出现了很多的问题。例如Hadoop MapReduce,虽然已经出现了Hadoop 2.0中的各项重要改进,但相信只要是真正用过它的人都知道,其在方便性、可靠性、可用性、效率等方面都还很不尽如人意。笔者记得一位很熟悉Hadoop 的朋友说:“如果企业能用关系数据库解决问题,

11、就尽量不要用它!”再如Twitter放弃了用Cassandra替代MySQL的决策,Digg使用 Cassandra后出现的一系列严重问题等,都使很多人开始重新审视这些新技术。其实,究其根本,以上现象出现的主要原因是:人们只是去学习如 何使用这些新技术,却很少独立思考,对它们进行较为深入的学习与剖析;很少在设计思想、技术架构、内在本质等方面将它们与其他技术进行对比,以能在真正掌 握后,做出属于自己、适合自己的判断。而这些又正是本书的主体内容。如果在数据库技术领域继续探究,会发现NoSQL技术虽然适合海量数据的快速 存取,却无法满足较复杂的关系模型数据管理及人们对习惯使用SQL语言的要求,而标准

12、的关系数据库在水平扩展性上又严重受限。那么,是否存在一种技术,既 可以使用关系模型存储数据,使用SQL操作数据,又可以像NoSQL一样方便扩展?于是,本书还与读者分享了笔者自主研发的一个关系型云数据库的设计与实 践,它既不同于目前流行的Hadoop/NoSQL等开源技术,也不同于传统的关系数据库,是一种介于两者之间的技术模式,目前的状态正好满足 Hadoop与传统关系数据库都不太适用的企业级海量历史数据管理的需求,并已经在实践中取得一定的成果。接着,由该自主产品的设计实践活动出发,我们产 生了对Hadoop本身许多固有技术问题更大胆的、更进一步的深入思考:PB级海量数据的批量分析能不能比Had

13、oop再提高一个数量级,例如,达到秒 级?在保守的认识中,这样的要求似乎是不合理的,也是不可能实现的。然而大数据领域最新的技术进展Hadoop的缔造者Google近年来一系列更前沿 的、被称为“Google新三驾马车”的研究成果,通过模式(Schema)的回归与精巧的设计,已经向这样似乎是“不可能的任务”的宏伟目标迈出了一大 步。这使我们意识到:技术的发展瞬息万变,Hadoop本身已不见得有多么先进了,想要在实践中做出正确的决策,就必须不断学习,勇于创新,不断经历破与 立的过程,而不能故步自封,原地不动。除了需要对各种大数据技术手段进行深入剖析以外,当今IT界还在云计算技术两个不同的技术策略上

14、有着广泛的 争议,即“分”为云与“合”为云,前者是指数据切分后以小变大,后者是指以大变小,将分散的小资源集中整合起来管理后,再将资源进行统一的按需调度与分 配。两者都称自己是云计算技术(或者说是大数据技术)的正宗,相互攻击与否定的现象极为激烈,并且各自都有坚实的成功实践为基础。表现最明显的就是以淘宝 为代表的新兴互联网技术力量与IBM、Oracle等老牌的数据库厂商之间关于以“分”为主的开源技术及以“合”为主的一体机技术之间的争论与竞争,可以 说已经到了白热化的阶段。他们各说各话,各有千秋,已经成为企业技术决策者的主要困惑之一。而实际上,经过研究与分析,很容易就可以发现,他们所争论的 “分”与

15、“合”,看起来是完全相反的,实际上并不矛盾,其实是你中有我,我中有你,两者是有机结合的统一体,在现代数据管理的需求中都有各自的定位。企业 所要做的并不是对技术策略进行非你即他的选择,而是根据自己的实际情况与需求,对各种技术与产品进行合理的定位;同时,更加重要的工作并不是某一项技术的 正确定位与使用,而是能站在云数据中心建设的高度,将传统关系数据库资源与Hadoop集群资源集中起来形成PaaS平台,再对外提供分散的、数据相关的 云服务,包括数据库云与Hadoop平台云,可以将之统称为大数据云。将大数据的话题提高到这样的层面,虽然相关的资源池调度与分配技术也非常重要,但更 重要的却已经是面向云计算

16、的大数据服务模式了。另一方面,虽然关系数据库将与Hadoop等技术共存的思想被大多数人接受,也是本书所认同的观 点,但广大读者可能还注意到一个现象:新兴的Hadoop/NoSQL等非SQL技术在不断发展的过程中,已经在逐步引进一些原本属于SQL技术体系的功 能,如索引与事务;而关系数据库领域,也在逐步将这些新兴的技术引入其技术体系,如AsterData与最新Oracle 12C所具备的InDB MapReduce功能,都是除原有的SQL引擎以外,在其数据库内引入MapReduce处理引擎。那么,未来数据管理技术的发展趋势究竟如何呢?我们 说,在物理基础设施上,分布式集群架构应该是未来发展的大趋势,而在软基础设施层面,虽然SQL与非SQL技术体系在相当长的时间内会共存,但未来的趋势 是相互融合的。现在看来,起码对数据管理技术来讲,开源是大趋势,摒弃产品销售为主导的商业模式,以技术服务为主体应该是各大厂商应该尽早考虑的策略。在 本书最后,笔者结合企业数据架构规划的实际,针对当今各个企业在响应大数据潮流

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号