大数据_big_data

上传人:乐*** 文档编号:116012451 上传时间:2019-11-15 格式:PPT 页数:101 大小:554KB
返回 下载 相关 举报
大数据_big_data_第1页
第1页 / 共101页
大数据_big_data_第2页
第2页 / 共101页
大数据_big_data_第3页
第3页 / 共101页
大数据_big_data_第4页
第4页 / 共101页
大数据_big_data_第5页
第5页 / 共101页
点击查看更多>>
资源描述

《大数据_big_data》由会员分享,可在线阅读,更多相关《大数据_big_data(101页珍藏版)》请在金锄头文库上搜索。

1、Big Data 1 大数据时代 在科学研究(天文学、生物学、高能物理等) 计算机仿真 互联网应用 电子商务等领域 数据量呈现快速增长的趋势 2 大数据时代 在科学研究方面: 大型强子对撞机每年积累的新数据量为15PB 左右 在电子商务领域: 沃尔玛公司每天通过 6000 多个商店,向全球客户销 售超过 2.67 亿件商品 为了对这些数据进行分析,HP 公司为沃尔玛公司建 造了大型数据仓库系统,数据规模达到 4PB,并且仍 在不断扩大 3 大数据时代 大规模数据主要来源1: 传感器数据 分布在不同地理位置上的传感器,对所处环 境进行感知,不断生成数据.即便对这些数据 进行过滤,仅保留部分有效数

2、据,长时间累积 的数据量也是非常惊人的 4 大数据时代 大规模数据主要来源2: 网站点击流数据 为了进行有效的市场营销和推广,用户在网 上的每个点击及其时间都被记录下来;利用 这些数据,服务提供商可以对用户存取模式 进行仔细的分析,从而提供更加具有针对性 的服务 5 大数据时代 大规模数据主要来源3: 移动设备数据 通过移动电子设备包括移动电话和PDA、 导航设备等,我们可以获得设备和人员的位 置、移动、用户行为等信息,对这些信息进 行及时的分析,可以帮助我们进行有效的决 策,比如交通监控和疏导系统 6 大数据时代 大规模数据主要来源4: 射频 ID 数据 RFID 可以嵌入到产品中,实现物体

3、的跟踪. 一旦 RFID 得到广泛的应用,将是大量数据 的主要来源之一 7 数据分析的新趋势:超越常规报表 的深度分析需求的增长 为了从数据中发现知识并加以利用,指导人 们的决策,必须对数据进行深入的分析,而不 是仅仅生成简单的报表. 这些复杂的分析必须依赖于复杂的分析模 型,很难用SQL 来进行表达,统称为深度分析 (deep analysis). 8 人们不仅需要通过数据了解现在发生了什 么,更需要利用数据对将要发生什么进行预 测,以便在行动上做出一些主动的准备 比如,通过预测客户的流失预先采取行动,对 客户进行挽留. 9 10 这里,典型的OLAP 数据分析操作(对数据进 行聚集、汇总、

4、切片和旋转等)已经不够用, 还需要路径分析、时间序列分析、图分析 、What-if 分析以及由于硬件/软件限制而未 曾尝试过的复杂统计分析模型 11 时间序列分析 商业组织积累了大量的交易历史信息,企业 的各级管理人员希望从这些数据中分析出 一些模式,以便从中发现商业机会,通过趋势 分析,甚至预先发现一些正在涌现出来的机 会. 12 时间序列分析 比如在金融服务行业,分析人员可以开发针对性 的分析软件,对时间序列数据进行分析,寻找有 利可图的交易模式(profitable trading pattern), 经过进一步验证之后,操作人员可以使用这些交 易模式进行实际的交易,获得利润 13 大规

5、模图分析和网络分析 社会网络虚拟环境本质上是对实体连接性 的描述.在社会网络中,每个独立的实体表示 为图中的一个节点,实体之间的联系表示为 一条边. 14 大规模图分析和网络分析 通过社会网络分析,可以从中发现一些有用 的知识 比如发现某种类型的实体(有一种类型的实体把 各个小组连接在一起,称为网络中的关键实体). 这些信息可以用于产品直销、组织和个体行为 分析、潜在安全威胁分析等领域. 15 一种处理大数据的方法 是使用采样技术 通过采样,可以把数据规模变小,以便利用现 有的技术手段(关系数据库系统)进行数据管 理和分析. 然而在某些应用领域,采样将导致信息的丢 失,比如DNA 分析等. 在

6、明细数据上进行分析,意味着需要分析的 数据量将急剧膨胀和增长. 16 数据分析的趋势和挑战 1) 数据量的膨胀; 2) 数据深度分析需求的增长 3)数据类型多样化 包括各种非结构化、半结构化数据,对这些 类型多样的数据进行管理和分析也是数据 处理技术所面临的挑战. 17 18 以MapReduce 为代表的 非关系数据管理技术的兴起 19 关系数据库技术 关系数据库技术经过了将近 40 年的发展,成 为一门成熟的、同时仍在不断演进的主流 数据管理和分析技术. 关系数据管理技术的主流应用包括OLTP 应 用、OLAP 应用以及数据仓库等. SQL 语言作为存取关系数据库系统的语言 得到了标准化,

7、经过不断扩充,其功能和表达 能力不断增强. 20 关系数据库技术 但是,关系数据管理技术在大数据时代丧失 了互联网搜索这个机会 其主要原因是关系数据管理系统(并行数据 库)的扩展性遇到了前所未有的障碍,不能胜 任大数据分析的要求 21 关系数据库技术 关系数据管理模型追求的是高度的一致性 和正确性.面向超大数据的分析需求 纵向扩展(scale up)系统,即通过增加或者更换 CPU、内存、硬盘以扩展单个节点的能力,终将 遇到瓶颈 横向扩展(scale out)系统,即通过增加计算节点 连接成集群,并且改写软件,使之在集群上并行 执行,才是经济的解决办法. 22 关系数据库技术 使用大规模集群实

8、现大数据的管理和分析, 需要应对的挑战很多,其中,系统的可用性摆 到了重要的位置 23 关系数据库技术 根据CAP(consistency, availability, tolerance to network partitions)理论 (Towards Robust Distributed Systems. PODC2004 Keynote)(对该理论尚存争议), 在分布式系统中,一致性、可用性、容错性 三者不可兼得,追求其中两个目标必将损害 另外一个目标 24 关系数据库技术 并行数据库系统追求高度的一致性和容错 性(通过分布式事务、分布式锁等机制),无法 获得良好的扩展性和系统可用性,

9、而系统的 扩展性是大数据分析的重要前提. 25 MapReduce 2004 年,Google 公司最先提出MapReduce 技术,作为面向大数据分析和处理的并行计 算模型,引起了工业界和学术界的广泛关注. MapReduce 在设计之初,致力于通过大规模 廉价服务器集群实现大数据的并行处理,它 把扩展性和系统可用性放在了优先考虑的 位置. 26 MapReduce 技术框架 分布式文件系统 并行编程模型 并行执行引擎 27 分布式文件系统 (Google file system) 分布式文件系统运行于大规模集群之上,集 群使用廉价的机器构建. 数据采用键/值对(key/value)模式进行

10、存储. 整个文件系统采用元数据集中管理、数据 块分散存储的模式,通过数据的复制(每份数 据至少3 个备份)实现高度容错. 数据采用大块存储(64MB 或者128MB 为1 块)的办法,可方便地对数据进行压缩,节省存 储空间和传输带宽. 28 MapReduce 并行编程模型 并行编程模型把计算过程分解为两个主要 阶段,即Map 阶段和Reduce 阶段. Map 函数处理Key/Value 对,产生一系列的中间 Key/Value 对 Reduce 函数用来合并所有具有相同Key 值的 中间键值对,计算最终结果. 29 MapReduce 并行编程模型 MapReduce 技术是一种简洁的并行

11、计算模 型,它在系统层面解决了扩展性、容错性等 问题 通过接受用户编写的Map 函数和Reduce 函 数,自动地在可伸缩的大规模集群上并行执 行,从而可以处理和分析大规模的数据 30 MapReduce 并行编程模型 MapReduce 技术是非关系数据管理和分析 技术的典型代表. 在Google 公司内部,通过大规模集群和 MapReduce 软件,每天有超过20PB 的数据 得到处理,每个月处理的数据量超过400PB 31 MapReduce 并行编程模型 在数据分析的基础上,Google 提供了围绕互 联网搜索的一系列服务(包括地图服务、定 向广告服务等).如此大规模的数据管理和分 析

12、,是传统的关系数据管理技术所无法完成 的 32 MapReduce 技术的发展 一经推出,立即遭到关系数据管理技术阵营( 以著名的数据库技术专家Stonebraker 为代 表)的猛烈抨击. Stonebraker 认为,MapReduce 技术是一个 巨大的倒退,并指出了MapReduce 技术的众 多缺点,包括 不支持Schema 没有存取优化 依靠蛮力(brute force)进行数据处理等 33 MapReduce 技术的发展 Stonebraker 等人在100 个节点的集群上对 Hadoop 技术(MapReduce 的开源实现) Vertica 数据库(一种基于列存储的关系数据库

13、 管理系统) DBMS-X 数据库(某厂商提供的商用数据库) 进行了数据装载和数据分析的性能比较, 发现 Map Reduce 的性能远远低于Vertica 和DBMS- X.但Stonebraker 的批判并没有阻挡住以 MapReduce 技术为代表的大数据分析新技术的 发展洪流. 34 MapReduce 技术的发展 近几年来,MapReduce 技术获得了广泛的关 注,研究人员围绕MapReduce 开展了深入的 研究,包括 MapReduce 应用领域的扩展 MapReduce 性能的提升 MapReduce 易用性的改进等 同时,MapReduce 技术和RDBMS 也出现了相互

14、借鉴相互渗透的趋势 35 MapReduce应用领域的扩展 MapReduce 技术已经从围绕搜索的数据分 析扩展到数据挖掘、机器学习、信息检索 、计算机仿真、科学实验数据处理(生物、 物理)等众多的领域 36 MapReduce应用领域的扩展 针对传统分析软件扩展性差以及Hadoop 分 析功能薄弱的特点,IBM 公司的研究人员致 力于对R 和Hadoop的集成. R 是开源的统计分析软件,通过R 和Hadoop 的深度集成,把计算推向数据并且并行处理, 使Hadoop 获得了强大的深度分析能力 37 MapReduce应用领域的扩展 Purdue 大学的RHIPE 项目 (http:/ml

15、.stat.purdue.edu/rhipe/index.html) 也致力于R 和Hadoop 的集成,为大数据分 析提供开发环境的支持 38 MapReduce应用领域的扩展 Wegener 等人则实现了Weka(类似于R 的 开源的机器学习和数据挖掘工具软件)和 MapReduce 的集成. 39 MapReduce应用领域的扩展 标准版Weka 工具只能在单机上运行,并且 不能超越1GB 内存的限制. 经过算法的并行化,在MapReduce 集群上 ,Weka 不仅突破了原有的可处理数据量的 限制,轻松地对超过100GB 的数据进行分析, 同时利用并行计算提高了性能. 经过改造的Wek

16、a,赋予MapReduce 技术深 度分析的能力 40 MapReduce应用领域的扩展 若干开发者发起了Apache Mahout 项目的 研究,该项目是基于Hadoop 平台的大规模 数据集上的机器学习和数据挖掘开源程序 库,为应用开发者提供了丰富的数据分析功 能 41 MapReduce性能提升的研究 多核硬件与GPU 上的性能改进 索引技术与连接技术的优化 调度技术优化 其他优化技术 42 多核硬件与GPU 上的性能改进 MIT和Manchester 大学的研究人员研究了 多核硬件上的MapReduce 性能改进 研究了Cell Broadband Engine 上的 MapReduce 性能优化技术,其中,Wisconsin 大学的研究人员利用Cell Sort 算法,充分发

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号