大数据处理大数据概述

上传人:第*** 文档编号:62060112 上传时间:2018-12-16 格式:PDF 页数:67 大小:2.21MB
返回 下载 相关 举报
大数据处理大数据概述_第1页
第1页 / 共67页
大数据处理大数据概述_第2页
第2页 / 共67页
大数据处理大数据概述_第3页
第3页 / 共67页
大数据处理大数据概述_第4页
第4页 / 共67页
大数据处理大数据概述_第5页
第5页 / 共67页
点击查看更多>>
资源描述

《大数据处理大数据概述》由会员分享,可在线阅读,更多相关《大数据处理大数据概述(67页珍藏版)》请在金锄头文库上搜索。

1、大数据处理 大数据概述 1 参考资料 2 提纲 大数据的定义与特征 大数据的产生和应用 大数据与云计算 大数据与物联网 大数据处理平台的架构 大数据处理流程 大数据处理面临的挑战 大数据关键技术 大数据处理的关键问题 3 大数据 “大数据”是时下最火热的IT行业词汇 早在1980年,著名未来学家阿尔文 托夫勒便在第三次 浪潮一书中,明确提出“数据就是财富”,将大数据称 为“第三次浪潮的华彩乐章”。 第一次浪潮:农业阶段,约1万年前开始 第二次浪潮:工业阶段,17世纪末开始 第三次浪潮:信息化阶段,20世纪50年代后期开始 “如果说IBM的主机拉开了信息化革命的大幕,那么大数据才是 第三次浪潮的

2、华彩乐章。” 大约从2009年开始,“大数据”才成为互联网信息技术行业 的流行词汇。 4 什么是大数据 数据量超过一定大小,导致常规软件无法在一个可接受的 时间范围内完成对其进行抓取、管理和处理的工作的数据 ,例如: 互联网上的网页数据 社交网站上的用户交互数据 物联网中产生的活动数据 电信网络中的话单数据 5 大数据无处不在 科学研究 基因组 LHC 加速器 地球与空间探测 企业应用 Email、文档、文件 应用日志 交易记录 Web 1.0数据 文本 图像 视频 Web 2.0数据 查询日志/点击流 Twitter/ Blog / SNS Wiki 6 进入大数据时代 2011年,中国互联

3、网行业持有数据总量达到1.9EB(1EB字 节相当于10亿GB) 2011年,全球被创建和复制的数据总量为1.8ZB(1.8万亿 GB) 2013年,我们生成这样规模的信息量只需10分钟 2015年,全球被创建和复制的数据总量将增长到8.2EB以上 2020年,全球电子设备存储的数据将暴增30倍,达到35ZB 7 数据的度量 8 大数据的特征 9 大数据的特征-大容量Volume 根据IDC作出的估测,数据一直都在以每年50%的速度增 长,也就是说每两年就增长一倍(大数据摩尔定律)。这 意味着人类在最近两年产生的数据量相当于之前产生的全 部数据量,预计到2020年,全球将总共拥有35ZB的数据

4、 量,相较于2010年,数据量将增长近30倍。 10 大数据的特征-时效性Velocity 从数据的生成到消耗,时间窗口非常小,可用于生成决策 的时间非常少 1秒定律:这一点也是和传统的数据挖掘技术有着本质的 不同。 11 大数据的特征-多样化Variety 结构化数据(Structured) VS. 非结构化数据( Unstructured) 结构化数据是可以用二维表结构来表示,并可存储在 数据库中的数据。 银行交易数据、民航航班信息 非结构化数据则是指那些无法通过预先定义的数据模 型表述或无法存入关系型数据库表中的数据。 无格式文本(网页、邮件等)、图像、音频、视频 12 大数据的特征-多

5、样化Variety 非结构化数据 企业数据中,目前已有超过80%的数据是以非结构化的形式存在 的。 互联网领域,非结构化数据已占到整个数据量比例的75%以上 非结构化数据年增长速度约为63%,远超过结构化数据增长速度 32%。 13 大数据的特征-价值化Value 价值密度低,商业价值高。以视频为例,连续不间断监控 过程中,可能有用的数据仅仅有一两秒,但是具有很高的 价值 科学研究 企业应用 社会网络 14 舍恩伯格提出的大数据三大特征 舍恩伯格的大数据时代受到了广泛的赞誉,他本人也 因此书被视为大数据领域中的领军人物。 思维变革 商业变革 管理变革 在舍恩伯格看来,大数据一共具有三个特征:

6、全样而非抽样; 效率而非精确; 相关而非因果。 15 大数据的产生 人类社会的数据产生方式大致经历了3 个阶段,而正是数 据产生方式的巨大变化才最终导致大数据的产生。 运营式系统阶段 数据库的出现使得数据管理的复杂度大大降低 ,数据往往伴 随着一定的运营活动而产生并记录在数据库中的 ,这种数据 的产生方式是被动的 用户原创内容阶段 数据爆发产生于Web 2.0 时代,而Web 2.0 的最重要标志就是 用户原创内容 以博客、微博为代表的新型社交网络的出现和快速发展 以智能手机、平板电脑为代表的新型移动设备的出现 这个阶段数据的产生方式是主动的 感知式系统阶段 感知式系统的广泛使用 这个阶段数据

7、的产生方式是自动的 人类社会数据量第三次大的飞跃最终导致了大数据的产生 16 大数据的应用 17 大数据与大规模数据的区别 从对象角度看,大数据是大小超出典型数据库软件采集、储存、管理 和分析等能力的数据集合。大数据并非大量数据的简单无意义的堆积 ,数据量大并不意味着一定具有可观的利用前景。数据间是否具有结 构性和关联性,是 “大数据”与“大规模数据”的重要差别。 从技术角度看,大数据技术是从各种各样类型的大数据中,快速获得 有价值信息的技术及其集成。 “大数据”这一概念中包含着对数据对象 的处理行为。大数据技术是使大数据中所蕴含的价值得以发掘和展现 的重要工具。 从应用角度看,大数据是对特定

8、的大数据集合、集成应用大数据技术 、获得有价值信息的行为。正由于与具体应用紧密联系,甚至是一对 一的联系,才使得“应用”成为大数据不可或缺的内涵之一。 18 从数据库到大数据 池塘捕鱼(数据库)vs.大海捕鱼(大数据) 数据规模 数据库的处理对象通常以MB 为基本单位,大数据则常常以 GB,甚至是TB、PB 为基本处理单位。 数据类型 数据库中数据的种类单一,往往仅仅有一种或少数几种,这些 数据又以结构化数据为主。 大数据包含着结构化、半结构化以及非结构化的数据,并且半 结构化和非结构化数据所占比例越来越大 模式(Schema)和数据的关系 传统的数据库都是先有模式,然后才会产生数据。 大数据

9、时代很多情况下,难以预先确定模式,模式只有在数据 出现之后才能确定,且模式随着数据量的增长处于不断的演变 之中。 19 从数据库到大数据 处理对象 在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼 ”除了是捕捞对象之外,还可以通过某些“鱼”的 存在来判断其 他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处 理对象。而在大数据时代,要将数据作为一种资源来辅助解决 其他诸多领域的问题。 处理工具 捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对, 也就是所谓的One Size Fits All。但是在“大海”中,不可能存在 一种渔网能够捕获所有的鱼类,也就是说No S

10、ize Fits All。 20 典型的大数据的应用 在医疗行业的应用 在能源行业的应用 在通信行业的应用 在零售业的应用 21 科学研究的四种范式 图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以 来,在科学研究上,先后历经了实验、理论和计算三种范式。当数据 量不断增长和累积到今天,传统的三种范式在科学研究,特别是一些 新的研究领域已经无法很好的发挥作用,需要有一种全新的第四种范 式来指导新形势下的科学研究。基于这种考虑,Jim Gray 提出了一种 新的数据探索型研究方式,称之为科学研究的“第四种范式”(The Fourth Paradigm)。 22 大数据与云计算

11、 23 ServerStorageServerStorage Application Platform Infrastructure Visualization IaaS将基础设施(计算资源和存储)作为服务出租 从一个集中的系统部署软件,使之在一台 本地计算机上(或从云中远程地)运行的一个 模型。由于是计量服务,SaaS 允许出租 一个应用程序,并计时收费 类似于 IaaS,但是它包括操作系统和围 绕特定应用的必需的服务 SaaS PaaS Software as a Service Platform as a Service Infrastructure as a Service data

12、Storage as a Service SaaS PaaS IaaS dSaaS Google Apps, Microsoft “Software+Services” IBM IT factory, Google App Engine, F Amazon EC2, IBM Blue Cloud, Sun Grid Nirvanix SDN, Amazon S3, Cleversafe dsNet 大数据与云计算 从整体上看,大数据与云计算是相辅相成的 从技术上看,大数据根植于云计算 云计算关键技术中的海量数据存储技术、海量数据管理技术、 MapReduce编程模型,都是大数据技术的基础。 2

13、4 大数据与云计算 25 大数据与云计算 26 大数据与物联网 物联网就是“物物相连的互联网”。物联网通过智能感知、识别技术与 普适计算、泛在网络的融合应用,被称为继计算机、互联网之后世界 信息产业发展的第三次浪潮 物联网架构可分为三层,包括感知层、网络层和应用层 物联网,移动互联网再加上传统互联网,每天都在产生海量数据,而 大数据又通过云计算的形式,将这些数据筛选处理分析,提取出有用 的信息,这就是大数据分析。 27 数据处理平台的基础架构 文件存储 文件的快速增长;大规模小 文件;多类型;元数据管理 数据存储 数据模型;并发读写;复杂 查询 数据计算 问题分解;统一的编程模型 平台管理 协

14、同工作;资源监控 28 大数据处理的流程 29 整个大数据的处理 流 程可以定义为: 在合 适工具的辅助 下,对 广泛异构的 数据源进 行抽取和 集成,结果按照一 定的标准进行 统一 存储,并利用合适 的数据分析技术对 存储的数据进行分 析, 从中提取有益 的知识, 并利用恰 当的方式将结果展 现给终端用户。 数据抽取与集成 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 处理大数据,首先必须对所需数据源的数据进行抽取和集 成,从中提取出关系和实体,经过关联和聚合之后采用统 一定义的结构来存储这些数据。 在数据

15、集成和提取时需要对数据进行清洗,保证数据质量 及可信性。 现有的数据抽取与集成方式可以大致分为以下四种类型: 数据整合、数据联邦、数据传播和混合方法等。 30 数据分析 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 一些新的挑战,主要有: 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 大数据时代的算法需要进行调整 数据结果好坏的衡量 31 数据解释 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释 方法,则所得到的结果很可能让用户难以理解,极端情况 下甚至会误导用户。 大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 可以考虑从下面两个方面提升数据解释能力: 引入可视化技术 让用户能够在一定程度上了解和参与具体的分析过程 32 大数据的三种状态 静止数据(data at rest) 正使用数据(data inuse) 动态数据(data in motion) 33 大数据处理之“快” “动态数据”来得快 动态数据有不同的产生模式。有的是burst模式,极端的例子如欧 洲核子研究中心(CERN)的大型强子对撞机(Larg

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号