大数据与云计算-zhang

上传人:我*** 文档编号:137153217 上传时间:2020-07-05 格式:PPT 页数:41 大小:6.32MB
返回 下载 相关 举报
大数据与云计算-zhang_第1页
第1页 / 共41页
大数据与云计算-zhang_第2页
第2页 / 共41页
大数据与云计算-zhang_第3页
第3页 / 共41页
大数据与云计算-zhang_第4页
第4页 / 共41页
大数据与云计算-zhang_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《大数据与云计算-zhang》由会员分享,可在线阅读,更多相关《大数据与云计算-zhang(41页珍藏版)》请在金锄头文库上搜索。

1、大数据与云计算,钱进 E-mail: 2013.8.2,不知道BIG DATA? 你out了!,前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是Google,后者的典型则是Facebook。 谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信息也免费的送给了Google。因此Google的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。 这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷

2、贝赚钱的模式。成为互联网的巨擘。,互联网越来越智能,Google精确掌握用户行为、获取需求,微博为新浪带来巨大价值,马云的判断来自于数据分析,“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断出世界贸易发生变化了。”,马云对未来的预测,是建立在对用户行文分析的基础上。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘

3、数据的下降,自然导致买盘的下降。 腾讯在天津投资建立亚洲最大的数据中心;百度也在投资建立大数据处理中心;新浪推出企业微博产品,提供精准的数据分析服务。,Gartner 2011年技术成熟度曲线,大数据处于高速发展期,技术演進历史揭示未來是大数据驱动的智慧型经济模式,什么才是大数据?,指数型增长的海量数据,海量数据就是大数据吗?,大数据就是云計算嗎?,大数据的4V特性,体量Volume,多样性Variety,价值密度Value,速度Velocity,非结构化数据的超大规模和增长 总数据量的8090% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍,大数据的异构和多样性 很多不同

4、形式(文本、图像、视频、机器数据) 无模式或者模式不明显 不连贯的语法或句义,大量的不相关信息 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等),实时分析而非批量式分析 数据输入、处理与丢弃 立竿见影而非事后见效,Value 價值,挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低,是大数据的一个典型特征.,Variety 多样性,企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 能够在不同的数据类型中,进行交叉分析的技术,是大数据的核心技术之一.语义分析技术,

5、图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.,Velocity 速度,1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求,是区别大数据引用和传统数据仓库技术,BI技术的关键差别之一.,Volume 数据量,PB是大数据层次的临界点. KB-MB-GB-TB-PB-EB-ZB-YB-NB-DB,对大数据的進一步理解,大数据比云计算更为落地,商业模式驱动,应用需求驱动,云计算本身也是大数据的一种业务模式,大数据不仅仅是“大”,多大? PB 级,比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有

6、颠覆性的价值,软件是大数据的引擎,和数据中心(Data Center) 一样,软件是大数据的驱动力. 软件改变世界!,大数据生态:软件是引擎,21,社会的基础设施已经具备,移动电话,PCs,TVs,PDAs,GPS,导航,汽车电子设备,智能家电,iPhone,DCs,传感器,。,大数据的应用不仅仅是精准营销,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景,消费行业,金融服务,食品安全,医疗卫生,军事,交通环保,电子商务,气象,管理大数据“易”,理解大数据“难”,目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存

7、储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心. 非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等.,大数据为什么重要?,更高一层数据层面整合企业内外部,更高数据层面整合,利用用户”行为指纹”创造新商机,用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。 这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户

8、平台级公司的附庸。,大数据组成和展現方式?,基于SQL语言: 面对OLAP的传统行和列,不基于SQL或map-reduce的: 由谷歌率先发起,数据流: 基于运行商数据直接生成任意图形,数据入口/汇聚,数据平台,分析,传统交付模式-单片或基于设备的解决方案,云: 能够充分利用物理设施的弹性,以实现处理快速增长数据的能力,“数据库将演变成一个虚拟的,基于云计算,超级可扩展的分布式平台。” - Forrester analyst Jim Kobielus,新模式和新技术,展现方式:大型控制中心、移动终端,在多样性、体量、速度三大主要特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实

9、现数据的实时处理和快速决策。,大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),将是IT 领域新一代的技术与架构,什么是Big Data技术,分析技术: 数据处理:自然语言处理技术 统计和分析:A/B test; top N排行榜;地域占比;文本情感分析 数据挖掘:关联规则分析;分类;聚类 模型预测:预测模型;机器学习;建模仿真 大数据技术: 数据采集:ETL工具 数据存取:关系数据库;NoSQL;SQL等 基础架构支持:云存储;分布式文

10、件系统等 计算结果展现:云计算;标签云;关系图等,一些相关技术,存储 结构化数据: 海量数据的查询、统计、更新等操作效率低 非结构化数据 图片、视频、word、pdf、ppt等文件存储 不利于检索、查询和存储 半结构化数据 转换为结构化存储 按照非结构化存储,解决方案: Hadoop(MapReduce技术) 流计算(twitter的storm和yahoo!的S4),大数据与云计算,云计算的模式是业务模式,本质是数据处理技术。 数据是资产,云为数据资产提供存储、访问和计算。 当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为

11、国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。,白云下面数据跑,蓝蓝的天上白云飘,如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器!没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀!,大数据与云计算,从技术上看,大数据根植于云计算,大数据的关键技术,大数据技术与云计算有相同,也有差异,2012云计算,2013大数据?,美国: 美国政府在2012年3月29日宣布投资两亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。 中国: 中国商业联合会:副会长刘建沪介绍说,随着互联网的快速发展,中国的电子商务企

12、业纷纷组建了数据分析部门。 2011年10月,工信部确认京沪深杭等5城市为“云计算中心”试点城市。而真正的问题或许不在于怎样建设“云计算中心”。国家信息中心常务副主任杜平直言不讳:“应对大数据的到来,需要不断建基础设施,但是建了干什么,有些数据需要存储,也有很多数据可能不需要储存。” 大数据的市场有多大?中央财经大学中国经济管理研究院博士张永力说,国外大数据行业约有1000亿美元的市场,而且每年都以10%的速度在增长,增速是软件行业的两倍。,行业拓展者,打造大数据行业基石:,大数据的应用 企业在投入,IBM: IBM大数据提供的服务包括数据分析,文本分析,蓝色云杉(混搭供电合作的网络平台);业

13、务事件处理;IBM Mashup Center的计量,监测,和商业化服务(MMMS) IBM的大数据产品组合中的最新系列产品的InfoSphere bigInsights,基于Apache Hadoop。 该产品组合包括: 打包的Apache Hadoop的软件和服务,代号是bigInsights核心,用于开始大数据分析 软件被称为bigsheet,软件目的是帮助从大量数据中轻松、简单、直观的提取、批注相关信息 为金融,风险管理,媒体和娱乐等行业量身定做的行业解决方案 微软: 2011年1月与惠普(具体而言是HP数据库综合应用部门) 合作目标是开发了一系列能够提升生产力和提高决策速度的设备。

14、EMC: EMC 斩获了纽交所和Nasdaq; 大数据解决方案已包括40多个产品。 Oracle: Oracle大数据机与Oracle Exalogic中间件云服务器、Oracle Exadata数据库云服务器以及Oracle Exalytics商务智能云服务器一起组成了甲骨文最广泛、高度集成化系统产品组合。,政府职能变革 重视应用大数据技术,盘活各地云计算中心资产:把原来大规模投资产业园、物联网产业园从政绩工程,改造成智慧工程; 在安防领域,应用大数据技术,提高应急处置能力和安全防范能力; 在民生领域,应用大数据技术,提升服务能力和运作效率,以及个性化的服务,比如医疗、卫生、教育等部门; 解

15、决在金融,电信领域等中数据分析的问题:一直得到得极大的重视,但受困于存储能力和计算能力的限制,只局限在交易数型数据的统计分析; 政府投入将形成示范效应,大大推动大数据的发展。,大数据的应用 政府,大数据的应用 热点:智慧城市,美国奥巴马政府在白宫网站发布大数据研究和发展倡议,提出“通过收集、处理庞大而复杂的数据信息,从中获得知识和洞见,提升能力,加快科学、工程领域的创新步伐,强化美国国土安全,转变教育和学习模式” ; 中国工程院院士邬贺铨说道,“智慧城市是使用智能计算技术使得城市的关键基础设施的组成和服务更智能、互联和有效,随着智慧城市的建设,社会将步入“大数据”时代。” 难点: 1、在最初就

16、合理规划智慧城市(深度思考哪些领域能够运用); 2、在城市发展基础设施和“云产业”的同时,更多重视“数据”的价值; 3、在大数据处理领域的核心技术不足,需要政府更大的投入。,大数据的应用 未来,改变一切,数据的再利用: 由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。,大数据价值链的3大构成:数据本身、技能与思维 其中三者兼具的又谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号