大数据_big_data－金锄头文库

资源描述

《大数据_big_data》由会员分享，可在线阅读，更多相关《大数据_big_data（101页珍藏版）》请在金锄头文库上搜索。

1、Big Data 1 大数据时代在科学研究(天文学、生物学、高能物理等) 计算机仿真互联网应用电子商务等领域数据量呈现快速增长的趋势 2 大数据时代在科学研究方面: 大型强子对撞机每年积累的新数据量为15PB 左右在电子商务领域: 沃尔玛公司每天通过 6000 多个商店,向全球客户销售超过 2.67 亿件商品为了对这些数据进行分析,HP 公司为沃尔玛公司建造了大型数据仓库系统,数据规模达到 4PB,并且仍在不断扩大 3 大数据时代大规模数据主要来源1: 传感器数据分布在不同地理位置上的传感器,对所处环境进行感知,不断生成数据.即便对这些数据进行过滤,仅保留部分有效数

2、据,长时间累积的数据量也是非常惊人的 4 大数据时代大规模数据主要来源2: 网站点击流数据为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来;利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的服务 5 大数据时代大规模数据主要来源3: 移动设备数据通过移动电子设备包括移动电话和PDA、导航设备等,我们可以获得设备和人员的位置、移动、用户行为等信息,对这些信息进行及时的分析,可以帮助我们进行有效的决策,比如交通监控和疏导系统 6 大数据时代大规模数据主要来源4: 射频 ID 数据 RFID 可以嵌入到产品中,实现物体

3、的跟踪. 一旦 RFID 得到广泛的应用,将是大量数据的主要来源之一 7 数据分析的新趋势:超越常规报表的深度分析需求的增长为了从数据中发现知识并加以利用,指导人们的决策,必须对数据进行深入的分析,而不是仅仅生成简单的报表. 这些复杂的分析必须依赖于复杂的分析模型,很难用SQL 来进行表达,统称为深度分析 (deep analysis). 8 人们不仅需要通过数据了解现在发生了什么,更需要利用数据对将要发生什么进行预测,以便在行动上做出一些主动的准备比如,通过预测客户的流失预先采取行动,对客户进行挽留. 9 10 这里,典型的OLAP 数据分析操作(对数据进行聚集、汇总、

4、切片和旋转等)已经不够用, 还需要路径分析、时间序列分析、图分析、What-if 分析以及由于硬件/软件限制而未曾尝试过的复杂统计分析模型 11 时间序列分析商业组织积累了大量的交易历史信息,企业的各级管理人员希望从这些数据中分析出一些模式,以便从中发现商业机会,通过趋势分析,甚至预先发现一些正在涌现出来的机会. 12 时间序列分析比如在金融服务行业,分析人员可以开发针对性的分析软件,对时间序列数据进行分析,寻找有利可图的交易模式(profitable trading pattern), 经过进一步验证之后,操作人员可以使用这些交易模式进行实际的交易,获得利润 13 大规

5、模图分析和网络分析社会网络虚拟环境本质上是对实体连接性的描述.在社会网络中,每个独立的实体表示为图中的一个节点,实体之间的联系表示为一条边. 14 大规模图分析和网络分析通过社会网络分析,可以从中发现一些有用的知识比如发现某种类型的实体(有一种类型的实体把各个小组连接在一起,称为网络中的关键实体). 这些信息可以用于产品直销、组织和个体行为分析、潜在安全威胁分析等领域. 15 一种处理大数据的方法是使用采样技术通过采样,可以把数据规模变小,以便利用现有的技术手段(关系数据库系统)进行数据管理和分析. 然而在某些应用领域,采样将导致信息的丢失,比如DNA 分析等. 在

6、明细数据上进行分析,意味着需要分析的数据量将急剧膨胀和增长. 16 数据分析的趋势和挑战 1) 数据量的膨胀; 2) 数据深度分析需求的增长 3)数据类型多样化包括各种非结构化、半结构化数据,对这些类型多样的数据进行管理和分析也是数据处理技术所面临的挑战. 17 18 以MapReduce 为代表的非关系数据管理技术的兴起 19 关系数据库技术关系数据库技术经过了将近 40 年的发展,成为一门成熟的、同时仍在不断演进的主流数据管理和分析技术. 关系数据管理技术的主流应用包括OLTP 应用、OLAP 应用以及数据仓库等. SQL 语言作为存取关系数据库系统的语言得到了标准化,

7、经过不断扩充,其功能和表达能力不断增强. 20 关系数据库技术但是,关系数据管理技术在大数据时代丧失了互联网搜索这个机会其主要原因是关系数据管理系统(并行数据库)的扩展性遇到了前所未有的障碍,不能胜任大数据分析的要求 21 关系数据库技术关系数据管理模型追求的是高度的一致性和正确性.面向超大数据的分析需求纵向扩展(scale up)系统,即通过增加或者更换 CPU、内存、硬盘以扩展单个节点的能力,终将遇到瓶颈横向扩展(scale out)系统,即通过增加计算节点连接成集群,并且改写软件,使之在集群上并行执行,才是经济的解决办法. 22 关系数据库技术使用大规模集群实

8、现大数据的管理和分析, 需要应对的挑战很多,其中,系统的可用性摆到了重要的位置 23 关系数据库技术根据CAP(consistency, availability, tolerance to network partitions)理论 (Towards Robust Distributed Systems. PODC2004 Keynote)(对该理论尚存争议), 在分布式系统中,一致性、可用性、容错性三者不可兼得,追求其中两个目标必将损害另外一个目标 24 关系数据库技术并行数据库系统追求高度的一致性和容错性(通过分布式事务、分布式锁等机制),无法获得良好的扩展性和系统可用性,

9、而系统的扩展性是大数据分析的重要前提. 25 MapReduce 2004 年,Google 公司最先提出MapReduce 技术,作为面向大数据分析和处理的并行计算模型,引起了工业界和学术界的广泛关注. MapReduce 在设计之初,致力于通过大规模廉价服务器集群实现大数据的并行处理,它把扩展性和系统可用性放在了优先考虑的位置. 26 MapReduce 技术框架分布式文件系统并行编程模型并行执行引擎 27 分布式文件系统 (Google file system) 分布式文件系统运行于大规模集群之上,集群使用廉价的机器构建. 数据采用键/值对(key/value)模式进行

10、存储. 整个文件系统采用元数据集中管理、数据块分散存储的模式,通过数据的复制(每份数据至少3 个备份)实现高度容错. 数据采用大块存储(64MB 或者128MB 为1 块)的办法,可方便地对数据进行压缩,节省存储空间和传输带宽. 28 MapReduce 并行编程模型并行编程模型把计算过程分解为两个主要阶段,即Map 阶段和Reduce 阶段. Map 函数处理Key/Value 对,产生一系列的中间 Key/Value 对 Reduce 函数用来合并所有具有相同Key 值的中间键值对,计算最终结果. 29 MapReduce 并行编程模型 MapReduce 技术是一种简洁的并行

11、计算模型,它在系统层面解决了扩展性、容错性等问题通过接受用户编写的Map 函数和Reduce 函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据 30 MapReduce 并行编程模型 MapReduce 技术是非关系数据管理和分析技术的典型代表. 在Google 公司内部,通过大规模集群和 MapReduce 软件,每天有超过20PB 的数据得到处理,每个月处理的数据量超过400PB 31 MapReduce 并行编程模型在数据分析的基础上,Google 提供了围绕互联网搜索的一系列服务(包括地图服务、定向广告服务等).如此大规模的数据管理和分析

12、,是传统的关系数据管理技术所无法完成的 32 MapReduce 技术的发展一经推出,立即遭到关系数据管理技术阵营( 以著名的数据库技术专家Stonebraker 为代表)的猛烈抨击. Stonebraker 认为,MapReduce 技术是一个巨大的倒退,并指出了MapReduce 技术的众多缺点,包括不支持Schema 没有存取优化依靠蛮力(brute force)进行数据处理等 33 MapReduce 技术的发展 Stonebraker 等人在100 个节点的集群上对 Hadoop 技术(MapReduce 的开源实现) Vertica 数据库(一种基于列存储的关系数据库

13、管理系统) DBMS-X 数据库(某厂商提供的商用数据库) 进行了数据装载和数据分析的性能比较, 发现 Map Reduce 的性能远远低于Vertica 和DBMS- X.但Stonebraker 的批判并没有阻挡住以 MapReduce 技术为代表的大数据分析新技术的发展洪流. 34 MapReduce 技术的发展近几年来,MapReduce 技术获得了广泛的关注,研究人员围绕MapReduce 开展了深入的研究,包括 MapReduce 应用领域的扩展 MapReduce 性能的提升 MapReduce 易用性的改进等同时,MapReduce 技术和RDBMS 也出现了相互

14、借鉴相互渗透的趋势 35 MapReduce应用领域的扩展 MapReduce 技术已经从围绕搜索的数据分析扩展到数据挖掘、机器学习、信息检索、计算机仿真、科学实验数据处理(生物、物理)等众多的领域 36 MapReduce应用领域的扩展针对传统分析软件扩展性差以及Hadoop 分析功能薄弱的特点,IBM 公司的研究人员致力于对R 和Hadoop的集成. R 是开源的统计分析软件,通过R 和Hadoop 的深度集成,把计算推向数据并且并行处理, 使Hadoop 获得了强大的深度分析能力 37 MapReduce应用领域的扩展 Purdue 大学的RHIPE 项目 (http:/ml

15、.stat.purdue.edu/rhipe/index.html) 也致力于R 和Hadoop 的集成,为大数据分析提供开发环境的支持 38 MapReduce应用领域的扩展 Wegener 等人则实现了Weka(类似于R 的开源的机器学习和数据挖掘工具软件)和 MapReduce 的集成. 39 MapReduce应用领域的扩展标准版Weka 工具只能在单机上运行,并且不能超越1GB 内存的限制. 经过算法的并行化,在MapReduce 集群上 ,Weka 不仅突破了原有的可处理数据量的限制,轻松地对超过100GB 的数据进行分析, 同时利用并行计算提高了性能. 经过改造的Wek

16、a,赋予MapReduce 技术深度分析的能力 40 MapReduce应用领域的扩展若干开发者发起了Apache Mahout 项目的研究,该项目是基于Hadoop 平台的大规模数据集上的机器学习和数据挖掘开源程序库,为应用开发者提供了丰富的数据分析功能 41 MapReduce性能提升的研究多核硬件与GPU 上的性能改进索引技术与连接技术的优化调度技术优化其他优化技术 42 多核硬件与GPU 上的性能改进 MIT和Manchester 大学的研究人员研究了多核硬件上的MapReduce 性能改进研究了Cell Broadband Engine 上的 MapReduce 性能优化技术,其中,Wisconsin 大学的研究人员利用Cell Sort 算法,充分发

展开阅读全文