大数据与云数据管理教材

上传人:F****n 文档编号:96401044 上传时间:2019-08-26 格式:PPT 页数:87 大小:7.43MB
返回 下载 相关 举报
大数据与云数据管理教材_第1页
第1页 / 共87页
大数据与云数据管理教材_第2页
第2页 / 共87页
大数据与云数据管理教材_第3页
第3页 / 共87页
大数据与云数据管理教材_第4页
第4页 / 共87页
大数据与云数据管理教材_第5页
第5页 / 共87页
点击查看更多>>
资源描述

《大数据与云数据管理教材》由会员分享,可在线阅读,更多相关《大数据与云数据管理教材(87页珍藏版)》请在金锄头文库上搜索。

1、第9章 大数据与云数据管理,大数据 云计算 云数据管理,有关大数据的两个问题,问题1:你知道什么是“大数据”吗? 如果你不知道,那么你很可能OUT了! 问题2 :你听说过“大数据”吗? 如果你连“大数据”听都没听过,那么你绝对OUT了!,你认识这位老兄吗?,如果你连这位老兄都不认识,那你也太OUT了!,斯诺登事件带给我们的最大震动是什么?,不在于他暴露了美国政府正在监听全世界这件事情。因为,这早已是公开的秘密,对“世界警察”而言,这没有什么值得大惊小怪的! 而在于他使我们了解到美国政府已经具备了获取、存储、管理、分析和使用“大数据”的超强能力。这使美国政府获得了相对他国政府更明显的优势! 大数

2、据为“世界警察”的“大拳头”装上了“大眼睛” 、 “大耳朵”和“大脑袋” !,目前IT领域最引人关注的三个热词是什么?,大数据 云计算 物联网 其他:移动互联网,社交网,XXX2.0/3.0/,什么是大数据?,来源:2008年9月科学(Science)杂志发表了一篇文章“Big Data: Science in the Petabyte Era”, 从此“大数据”这个词开始被广泛传播。,什么是大数据?,没有统一定义,因为“大”是一个相对“小”而言概念。 与大数据(Big Data)相类似的词汇: Large Scale 大规模, Very Large 超大规模, Massive 海量 ,什么是

3、大数据?,从历史发展的视角看这几个词: Very Large表示GB级别的数据 Massive表示TB级的数据 Big Data表示PB级别及其以上的数据 显然,争论它们中哪一个更大没有什么意义。,什么是大数据?,一个普遍接受的定义 大数据是指无法在可容忍的时间内用传统方法或工具对其进行抓取、管理和处理的数据集合。 数据集组成非常巨大和复杂,以至于传统数据库管理工具处理起来面临很多问题。 获取、存储、检索、共享、分析和可视化。 数据量达到PB、EB或ZB级别。,* from Big Data wikipedia.,难道这就是大数据?,难道这就是大数据?,大数据产生的背景,数据量 3个月翻一番

4、通信速度 6个月翻一番 存储容量 9个月翻一番 集成电路 18个月翻一番 现在网络环境下每18个月产生的数据量相当于过去几千年的数据量之和 数据之多,数据量之大,前所未有,大数据有多大? 以互联网为例,Facebook 截止2012年4月,每日评论已达32亿条;每天新上传照片近3亿张。 每周新增图片容量约60TB,图片总量约2600亿张,已超过20PB。 平均每秒3500次写操作,读操作的峰值可以达到每秒百万次。 Amazon 目前EC2有约450000台服务器(存储+处理)。,*数据来自Facebook于2012年4月提交的监管文件。 *数据来源于亚马逊2012年4月的官方介绍材料。,大数据

5、有多大?,多,实在是多! 繁,实在是繁! 大,实在是大! No data like more data! 数据永远也不嫌多!,大数据从何而来? 机器,存储 软件、系统文件、基础数据 元数据(如索引) 冗余、备份 处理 原始数据的自动加工: 压缩、聚类、规则适用、可视化、智能衍生 传播 负载迁移、分布式共享( 如P2P),大数据从何而来? 人,内容提供商 新闻报道、时事评论、广告宣传 音频、视频、微视频 职业撰稿人 网络作家、写手、推手、水军 普通大众 博文、图片、音乐、视频 SNS网络传播 评论、转发,大数据从何而来? 物理世界,无所不在的感知数据 传感节点(压力、温度、湿度、声光电) 无线宽

6、频信号采样、太湖蓝藻检测、PM 2.5 视频监控 目前1路720P高清视频摄像数据每小时视频录像3GB左右。按一个月保存时间要求计算,3GB/小时24小时30天1路=2.16T。一个拥有500路高清视频摄像,需要保存1个月的监控系统所需的最少存储容量是1PB。 对地观测 资源三号卫星在运行前两个月的时间内,产生37TB的原始影像数据。这是后续互联网地图的基础。 天文物理、气象、医学等专业领域数据,大数据向何而去?,服务 如果不能提供服务,大数据就没有意义。 面向人、机、物的服务 物理世界:需要足够的采样数据 机器:需要数据具有关联度,能够从中分析出有用信息,非结构化半结构化结构化 人:能够直接

7、使用数据的表现形式,进行生产和决策,大数据为什么重要?,2012年3月29日,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,美国政府已把“大数据”上升到了国家战略的层面。 中国政府和业界对“大数据” 高度重视并在大力推进。据报道,今年上已有委员提出将大数据列入国家发展战略。,20,大数据的特征,容量大,1,电子商务,科学计算,网络生活,每月交易21亿笔,产生300TB交易日志信息,7亿用户、400亿张照片,总容量超过1500TB,新墨西哥州的天文望远镜每年产生80TB的图像信息,美国国会图书馆存档信息量:约 80TB,生物信息,第一个中国人的全基因组图谱,1177亿碱基对,21,大数

8、据的特征,增加快,2,许多数据是人造出来的!,例子:北京至纽约的客机有千余个传感器,一次飞机记录的数据达数百T至P级。,22,大数据的特征,非结构化,3,非结构化=没有找到共性特征 多层结构,大数据的构成,大数据的4V特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍,大数据的异构和多样性 很多不同形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义,大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学

9、习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效,Volume 数据量,PB是大数据层次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB,Value 价值,挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低,是大数据的一个典型特征.,Variety 多样性,企业内部的经营交易信息,物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源。 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一。 语义分析技术,图文转换技术,模式识别技术,地理信

10、息技术等,都会在大数据分析时获得应用。,Velocity 速度,1s 是临界点。 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的。 实时处理的要求,是区别大数据引用和传统数据仓库技术、BI技术的关键差别之一。,脸谱(Facebook) 数据中心,微软(Microsoft)数据中心,苹果(Apple) 数据中心,谷歌(Google) 数据中心,数据中心看上去,规模庞大,4,大数据管理的基础数据中心,30,数据中心走进去,结构复杂,4,大数据管理的基础数据中心,数据库与大数据,GB/TB级 高质量、较干净 强结构化 Top-down 重交易 确定解,数据库 vs 大数据

11、*,传统数据库/数据仓库,PB级以上 有噪声、有冗余 非结构化 Bottom-up 重交互 满意解,大数据,* 摘自李德毅院士于2012年5月23日在云计算大会上的讲话,略有修改,“大数据”是数据增长 从量变到质变的里程碑,从人的认知角度来看,在数据量比较小的情况下,我们基于典型的数据去思考。 例如,我们可以设计一个数据模型来管理目前没遇到但以后可能遇到的数据,或者设计一个精妙的算法正确高效地处理将来可能遇到的数据和各种情况。 而大数据则颠覆了这一假定,目前的数据量已足够大,足以包罗万象,充分利用现有数据得出的全面而简约的数据模型和算法足以应对我们可能遇到的各种情况。 换言之,数据模型与算法设

12、计的首要任务不再是人基于少量数据的思考,而是机器基于海量数据的分析归类。 从基于猜测假定的设计到基于事实和经验的归纳总结,是人类认知过程的进步。 这是一个革命性的进展,是大数据之所以激动人心的根本。,大数据不仅仅是“大”,多大? PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值,大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,软件是驱动大数据的引擎,和数据中心(Data Center) 一样,软

13、件是大数据的驱动力。 软件改变世界!,大数据生态:软件是引擎,前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。 谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。 这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。,

14、互联网越来越智能,Google精确掌握用户行为、获取需求,微博为新浪带来巨大价值,马云的判断来自于数据分析,“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”,马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。

15、腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。,更高一层数据层面整合企业内外部,更高数据层面整合,利用用户”行为指纹”创造新商机,用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。 互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。 这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。,大数据应用中的陷阱 邦弗朗尼原理(Bonferronis Prin

16、ciple),邦弗朗尼原理: 在数据随机性假设的基础上,计算所寻找的事件的发生的期望值,如果该期望值大于找到的真实事件的数目,则所找到的事件很可能是一种假象。 即随着数据规模的不断增加,任何数据都会显现出一些不同寻常的特征,这些特征看上去似乎非常重要,但实际上却并不重要。,42,整体情报预警的故事,设有一群恐怖分子会偶尔在酒店聚会策划恐怖阴谋。 想找出那些同一天在同一个酒店至少出现两次的人群。,43,假设,被监控的人数:10亿(109) 被监控的天数: 1000 days 每个人去酒店的概率 1% (1000天里住10天酒店) 有 10万(105 ) 家酒店,每家酒店可容纳100 人 每个人行为都是随机的。 通过数据挖掘能发现可疑行为吗?,44,Calculations (1),人员 p 和人员 q 同一天在同一个酒店出现的概率 : 1/100 1/100 10-5 = 10-9. 人员p 和 q 在d1 和 d2 出现在同一个酒店的概率: 10-9 10-9 =

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号