大数据培训资料

上传人:F****n 文档编号:96455808 上传时间:2019-08-26 格式:PPT 页数:27 大小:4.53MB
返回 下载 相关 举报
大数据培训资料_第1页
第1页 / 共27页
大数据培训资料_第2页
第2页 / 共27页
大数据培训资料_第3页
第3页 / 共27页
大数据培训资料_第4页
第4页 / 共27页
大数据培训资料_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《大数据培训资料》由会员分享,可在线阅读,更多相关《大数据培训资料(27页珍藏版)》请在金锄头文库上搜索。

1、大数据(big data),什么是大数据?,具有4V特性的数据: Volume(巨大的数据量): Variety(数据类型多): 文本/图片/视频 等非结构化/半结构化数据 Velocity(处理速度快): 要求系统在短时间内做出反应 Value(价值密度低): 单条数据无价值,无用数据多,综合价值大,3亿用户,每天上亿条微博.,巡天望远镜,已收集140兆兆字节数据,2015年全球移动终端产生的数据量6300PB,案例 两年半前海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟

2、踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。,非结构化数据,相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。,作为特指的大数据,其中的“大”是指大型数据集,一般在10T B规模左右;多用户把多个数据集放在一起,形成P B级的数据量;同时这些数据

3、来自多种数据源,以实时、迭代的方式来实现。,与以往数据处理的区别?,指数型增长的海量数据,所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(MGI)估计,全球企业2010年在硬盘上存储了超过7EB(1EB等于10亿GB)的新数据,而消费者在PC和笔记本等设备上存储了超过6EB新数据。1EB数据相当于美国国会图书馆中存储的数据的4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的90%的数据(比如手术过程中产生的几乎所有实时视频图像)。,技术演进历史揭示未来是大数据驱动的智慧型经济模式,大数据崛起,分析大量数据并

4、非是新鲜事物,但近年才有革命性的变化:,网络使用人数逐年递增,硬件成本指数型递减,数据生成速度加快,存储成本指数下降,云端数据扩增,企业非结构化数据量飞速增长,流动数据大量增加,企业可用数据资源增大,大数据崛起,大数据崛起,大数据实际上是对更广泛数据的数据挖掘,以前因为成本、处理速度、数据量不足等问题无法处理,随着软硬件的发展,这些问题如今已不是难以跨越的鸿沟!,大数据发展脉络,经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。,用途?,以上介绍的互联网上的数据看起来数量庞大却用处寥寥,但事实上,只要处理好这些数据,

5、就能给商家带来巨大的利益。 举一个简单的例子:,商家,针对性地给客户提供,广告与优惠信息,消费服务,前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。 谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。 这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软

6、件拷贝赚钱的模式。成为互联网的巨擘。,互联网越来越智能,Google精确掌握用户行为、获取需求,政治经济,监控手机的使用状况和账单的缴付模式,如果数据突然发生变化,那可能预示着经济困境正在加剧,国情调控,对Twitter和Facebook等社交媒体网站的数据筛查,若社交媒体提及粮食或种族冲突,那可能预示爆发了饥荒或者国内骚乱,医疗保卫,社交媒体上提到某地区受到感染,是对疫情流行的有效早期预警,大数据的意义-为每位用户量身打造,用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,比用

7、户自己更了解用户,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。,大数据与云计算,大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,大数据-现状,2012年各行业大数据市场规模,2012年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。 由于各个行业都存在大数据应用需求,潜在市场空间非常可观。,2011年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。2012年-2016年,将迎来大数据市场的飞速发展。 2012年中国大数据市场规模将达到4.7亿元,2013年大数

8、据市场将迎来增速为138.3%的飞跃,到2016年,整个市场规模逼近百亿。,大数据-国外已经投资应用,美国国务院采用大数据技术开发新的美国护照系统。,IBM宣布投资1亿美元用于大数据研究;,美国IT公司开始意识到大数据技术能够为公司创造价值;,大数据公司引入汽车行业高管人员扩展营销业务;,EMC,EMC的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。 EMC的数据计算产品事业部正在开发分析工具以解决大数据现象。 EMC的大数据解决方案包括40多个产品。,2010年7月收购数据库软件供应商Greenplum,花费3亿美元 2009年

9、七月收购数据复制解决方案提供商Data Domain,花费24亿美元 不一定和大数据完全相关,EMC从2009年起收购了Archer Technologies, SourceLabs, FastScale Technology, Configuresoft, and Varonis Systems。,IBM,IBM的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长 IBM一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析,在过去四年中,IBM已经投入超过120亿美元进行了23项相关并购,其中包括: 2010年9月

10、收购数据库分析供应商Netezza公司,花费17亿美元 2010年10月收购网络分析软件供应商Coremetrics 2009年10月收购数据分析和统计软件提供商SPSS, 花费12亿美元 2009年1月收购业务规则管理软件供应商ILOG, 花费3亿4千万美元 2007年花费20亿美元收购商务智能软件供应商Cognos,微软,微软提供了高性能计算能力,并在2005年靠Windows Compute Cluster服务器进入相关市场 最近,微软的HPC部门开发了该公司的Dryad 并行处理技术社区技术预览(CTP),第一步是向Windows HPC Server的用户提供处理大数据工具,甲骨文,

11、甲骨文大数据提供的数据库和数据库软件主要用于配合Sun的硬件,特别是它的最高端服务,2009年7月收购专注于数据复制和实时数据集成解决方案的私人企业GoldenGate Software,IBM/Oracle/EMC/Microsoft角力大数据,大数据中国市场-雷声大雨点小,中国的大数据领域到底有多少活跃迹象?除了没完没了的研讨会,还有各类公司“宣称”进军大数据领域的决心,似乎无实际之进展。中国的大数据正在呈现这样的状态:投资人最活跃,技术和服务供应商最热心,数字媒体调门最高,而品牌企业最迷惑。 不是没有业务需求,而是需求还是不可实现的!,事实上,大数据在中国远没有落地,目前很多问题没有解决

12、。,大数据-问题,大数据前景-互联网,互联网行业拥抱大数据的关键因素,互联网行业对数据实时分析要求较高,例如广告监测、B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。 目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。,互联网行业大数据分析面临的主要问题,互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。,医疗行业产生的数据量主要来自于PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不

13、同专科影像的数据文件大小不一,PACS网络存储和传输要采取不同策略。面对大数据,医疗行业遇到前所未有的挑战和机遇。 医疗行业大数据应用场景非常多,右图仅以临床操作和研发为例,展示医疗行业大数据应用场景。 对于公共卫生部门,可以通过过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。,大数据前景-医疗,大数据前景-能源,能源行业数据特征,能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。,能源行业面临的大数据问题,能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储

14、、高带宽、可处理不同格式数据的分析方案。,大数据前景-小结,应用可能性,电信,政府(公共事业),交通,金融,医疗,教育,能源(电力/石油),纵轴契合度: 表示该用户的IT应用特点与大数据特性的契合程度; 横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性; 注: 该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值,High,Mid,Low,Low,Mid,High,优先关注行业用户,应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。,值得关注行业用户 应有特点与大数据的契合度及应用可能性综合较高,适当关注行业用户 两个维度暂时都不具备优势,可适当给予关注,互联网(电子商务),契合度,流通,零售,制造,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号