大数据处理的关键架构层1

资源描述

《大数据处理的关键架构层1》由会员分享，可在线阅读，更多相关《大数据处理的关键架构层1（25页珍藏版）》请在金锄头文库上搜索。

1、大数据时代，什么是数据分析的灵魂？2015-08-12 人大经济论坛让大数据区别于数据的，是其海量积累、高增长率和多样性什么是数据？数据（data）在拉丁文里是“已知”的意思，在英文中的一个解释是“一组事实的集合，从中可以分析出结论”。笼统地说，凡是用某种载体记录下来的、能反映自然界和人类社会某种信息的，就可称之为数据。古人“结绳记事”，打了结的绳子就是数据。步入现代社会，信息的种类和数量越来越丰富，载体也越来越多。数字是数据，文字是数据，图像、音频、视频等都是数据。什么是大数据呢？量的增多，是人们对大数据的第一个认识。随着科技发展，各个领域的数据量都在迅猛增长。有研究发现，近年来，数字数据的

2、数量每 3 年多就会翻一番。大数据区别于数据，还在于数据的多样性。正如高德纳咨询公司研究报告指出的，数据的爆炸是三维的、立体的。所谓的三维，除了指数据量快速增大外，还指数据增长速度的加快，以及数据的多样性，即数据的来源、种类不断增加。从数据到大数据，不仅是量的积累，更是质的飞跃。海量的、不同来源、不同形式、包含不同信息的数据可以容易地被整合、分析，原本孤立的数据变得互相联通。这使得人们通过数据分析，能发现小数据时代很难发现的新知识，创造新的价值。通过数据来研究规律、发现规律，贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据采集分析直接相关，例如现代医学流行病学的开端。伦敦 1854

3、年发生了大规模的霍乱，很长时间没有办法控制。一位医师用标点地图的方法研究了当地水井分布和霍乱患者分布之间的关系，发现有一口水井周围，霍乱患病率明显较高，借此找到了霍乱暴发的原因：一口被污染的水井。关闭这口水井之后，霍乱的发病率明显下降。这种方法，充分展示了数据的力量。本质上说，许多科学活动都是数据挖掘，不是从预先设定好的理论或者原理出发，通过演绎来研究问题，而是从数据本身出发通过归纳来总结规律。近现代以来，随着我们面临的问题变得越来越复杂，通过演绎的方式来研究问题常常变得很困难。这就使得数据归纳的方法变得越来越重要，数据的重要性也越发凸显出来。大数据是非竞争性资源，有助于政府科学决策、商家精

4、准营销大数据时代，数据的重要作用更加凸显，许多国家都把大数据提升到国家战略的高度。政府合理利用大数据，引导决策的将是基于实证的事实，政府会更有预见性、更加负责、更加开放。中国古代治国就已经有重数据的思想，如商鞅提出，“强国知十三数欲强国，不知国十三数，地虽利，民虽众，国愈弱至削”。大数据时代，循“数”治国将更加有效。小数据时代，政府做决策更多依凭经验和局部数据，难免头痛医头、脚痛医脚。比如，交通堵塞就多修路。大数据时代，政府做决策能够从粗放型转向集约型。路堵了，利用大数据分析，可以得知哪一时间、哪一地段最容易堵，或在这一地段附近多修路，或提前预警引导居民合理安排出行，实现对交通流的最佳配置和控

5、制，改善交通。对于商家来说，大数据使精准营销成为可能。一个有趣的故事，是沃尔玛超市的“啤酒、尿布”现象。沃尔玛超市分析销售数据时发现，顾客消费单上和尿布一起出现次数最多的商品，竟然是啤酒。跟踪调查后发现，有不少年轻爸爸会在买尿布时，顺便买些啤酒喝。沃尔玛发现这一规律后，搭配促销啤酒、尿布，销量大幅增加。大数据时代，每个人都会“自发地”提供数据。我们的各种行为，如点击网页、使用手机、刷卡消费、观看电视、坐地铁出行、驾驶汽车，都会生成数据并被记录下来，我们的性别、职业、喜好、消费能力等信息，都会被商家从中挖掘出来，以分析商机。大数据也将使个人受益。从生物学、医学上讲，以前生物学家只是通过对单个或几

6、个基因的操控来观察其对生物体的影响，很难发现整体的关联。现在由于技术的发展，可以分析很多，如遗传信息、全体基因的表达量信息、蛋白质族谱信息、全基因组甲基化信息、表观遗传信息等。同时还有个人健康指标、病历、药物反应等数据。如果真能达成生物学上多维多向数据的有机融合，就能够把个人完整地描述出来，从而实现精准医疗的目的。大数据时代，审核数据的真实性也有了更有效的手段。大数据的特征之一是多样性，不同来源、不同维度的数据之间存在一定的关联度，可以交叉验证。例如，某地的工业产值虚报了一倍，但用电量和能耗却没有达到相应的规模。这就是数据异常，很容易被系统识别出来。发现异常后，相关部门再进行复核，就能更有针对

7、性地防止、打击数据造假。数据是一种资源，但数据又跟煤、石油等物质性资源不一样。物质性资源不可再生，你用多了，别人就用少了，因而很难共享。数据可以重复使用、不断产生新的价值。大数据资源的使用是非恶性竞争的，共享的前提下，更能够制造双赢。从另一个角度来说，数据如果不被融合、联系在一起，也不能称之为大数据。大数据不能被直接拿来使用，统计学依然是数据分析的灵魂现在社会上有一种流行的说法，认为在大数据时代，“样本=全体”，人们得到的不是抽样数据而是全数据，因而只需要简单地数一数就可以下结论了，复杂的统计学方法可以不再需要了。在我看来，这种观点非常错误。首先，大数据告知信息但不解释信息。打个比方说，大数据

8、是“原油”而不是“汽油”，不能被直接拿来使用。就像股票市场，即使把所有的数据都公布出来，不懂的人依然不知道数据代表的信息。大数据时代，统计学依然是数据分析的灵魂。正如加州大学伯克利分校迈克尔乔丹教授指出的，“没有系统的数据科学作为指导的大数据研究，就如同不利用工程科学的知识来建造桥梁，很多桥梁可能会坍塌，并带来严重的后果。”其次，全数据的概念本身很难经得起推敲。全数据，顾名思义就是全部数据。这在某些特定的场合对于某些特定的问题确实可能实现。比如，要比较清华、北大两校同学数学能力整体上哪个更强，可以收集到两校同学高考时的数学成绩作为研究的数据对象。从某种意义上说，这是全数据。但是，并不是说我们有

9、了这个全数据就能很好地回答问题。一方面，这个数据虽然是全数据，但仍然具有不确定性。入校时的数学成绩并不一定完全代表学生的数学能力。假如让所有同学重新参加一次高考，几乎每个同学都会有一个新的成绩。分别用这两组全数据去做分析，结论就可能发生变化。另一方面，事物在不断地发展和变化，同学入校时的成绩并不能够代表现在的能力。全体同学的高考成绩数据，仅对于那次考试而言是全数据。“全”是有边界的，超出了边界就不再是全知全能了。事物的发展充满了不确定性，而统计学，既研究如何从数据中把信息和规律提取出来，找出最优化的方案；也研究如何把数据当中的不确定性量化出来。所以说，在大数据时代，数据分析的很多根本性问题和小

10、数据时代并没有本质区别。当然，大数据的特点，确实对数据分析提出了全新挑战。例如，许多传统统计方法应用到大数据上，巨大计算量和存储量往往使其难以承受；对结构复杂、来源多样的数据，如何建立有效的统计学模型也需要新的探索和尝试。对于新时代的数据科学而言，这些挑战也同时意味着巨大的机遇，有可能会产生新的思想、方法和技术。来源：人民日报（2015 年 07 月 20 日 12 版）清华大学刘军教授读完这100篇论文，你就能成大数据高手！2015-09-21 人大经济论坛论坛君PayPal 高级工程总监 Anil Madan 写了这篇大数据的文章，一共有 100 篇大数据的论文，涵盖大数据技术栈，全部读懂

11、你将会是大数据的顶级高手。当然主要是了解大数据技术的整个框架，对于我们学习大数据有莫大好处。开源（Open Source）用之于大数据技术，其作用有二：一方面，在大数据技术变革之路上，开源在众人之力和众人之智推动下，摧枯拉朽，吐故纳新，扮演着非常重要的推动作用。另一方面，开源也给大数据技术构建了一个异常复杂的生态系统。每一天，都有一大堆“新”框架、“新”类库或“新”工具，犹如雨后春笋般涌出，乱花渐欲“迷”人眼。为了掌控住这些“新玩意”，数据分析的达人们不得不“殚精竭虑”地“学而时习之”。无论你是一个大数据的布道者，还是一个日臻成熟的技术派，亦或你还在大数据这条路上“小河才露尖尖角”，多花点时间

12、，深入理解一下大数据系统的技术体系演进，对你都会有莫大益处。全方位地理解大数据体系结构中的各个组件，并掌握它们之间的微妙差别，可在处理自己身边的大数据案例时，助你张弛有度，“恢恢乎，其于游刃必有余地矣!”在过去的几年里，我阅读了很多不错的大数据文献，这些文献陪我成长，助我成功，使我成为一个具备良好教育背景的大数据专业人士。在这里，撰写此文的目的，不限于仅仅和大家分享这些很不错的文献，更重要的是，借此机会，想和大家一起，集众人之智慧，破解大数据开源系统之迷宫。需要提醒的是，下文提及到的 100 篇参考文献（这些文献中大多都是一些开创性的研究论文），将会为你提供结构性的深度剖析，绝非泛泛而谈。我相

13、信，这可从根本上帮助你深度理解大数据体系组件间的细微差别。但如果你打算“走马观花”般地快速过一遍，了解大数据为何物，对不起，这里可能会让你失望。那么，准备好了吗？让我们走起！在介绍这 100 篇文献之前，首先让我们看一下大数据处理的关键架构层（如图 1 所示）：关键架构层图 1：大数据处理的关键架构层文件系统层：在这一层里，分布式文件系统需具备存储管理、容错处理、高可扩展性、高可靠性和高可用性等特性。数据存储层：由于目前采集到的数据，十之有七八为非结构化和半结构化数据，数据的表现形式各异，有文本的、图像的、音频的、视频的等，因此常见的数据存储也要对应有多种形式，有基于键值（Key-Value）

14、的，有基于文档（Document），还有基于列（Column）和图表（Graph）的。如果采用单一的数据库引擎，“一刀切式”的满足所有类型的数据存储需求，通常会严重降低数据库管理的性能。因此，我们需要“兵来将挡，水来土掩”式的、多元的（Polyglot）【1】数据库解决方案（这就好比，如果“兵来了”和“水来了”，都要“将”去挡，遇到“兵”时，“将”可以“酣畅淋漓”，而遇到“水”时，还用“将”去挡，那这个“将”估计就要“舍生取义”了。文献【1】是一本有关 NoSQL 数据处理的图书）资源管理层：这一层是为了提高资源的高利用率和吞吐量，以到达高效的资源管理与调度目的。资源协调层：在本层的系统，需

15、要完成对资源的状态、分布式协调、一致性和资源锁实施管理。计算框架层：在本层的计算框架非常庞杂，有很多高度专用的框架包含其内，有流式的，交互式的，实时的，批处理和迭代图的（Batch and Iterative Graph，BSP）等。为这些计算框架提供支撑的是运行时引擎，如 BDAS【2】(Spark) 和 Flink 等（注：这里的 BDAS 是指“Berkeley Data Analytics Stack”，即伯克利数据分析栈。文献【2】为 Spark 核心作者 Ion Stoica 的讲座幻灯片文档）。数据分析层：在这一层里，主要包括数据分析(消费)工具和一些数据处理函数库。这些工具和函

16、数库，可提供描述性的、预测性的或统计性的数据分析功能及机器学习模块。数据集成层：在这一层里，不仅包括管理数据分析工作流中用到的各种适用工具，除此之外，还包括对元数据（Metadata）管理的工具。操作框架层：这一层提供可扩展的性能监测管理和基准测试框架。架构的演进减少数据生产者和消费者之间的处理延迟，一直是现代计算构架不断演进的主要动力。由此，诞生了实时和低延迟处理的计算构架，如 Lambda 和 Kappa 等，这类混合架构取长补短，架起传统的批处理层和交互式层之间连接的桥梁。Lambda【3】 -该架构是经典的大数据处理范式，是由南森马兹（Nathan Marz）提出的一个实时大数据处理框架。更多有关 Lamda 的信息，请读者访问 Lambda 官方网站。（注：文献【3】是由 James Kinley 在轻博客网站 Tumblr 发表的一篇博文：Lambda 架构：构架实时大数据系统的原则）。Kappa【4】-该计算构架可视为 Lambda 的一个强有力替代者，Kappa 将数据处理的上游移至流式层（注：文献

展开阅读全文

大数据处理的关键架构层1

最新文档