大数据技术与产业发展

上传人:F****n 文档编号:96456359 上传时间:2019-08-26 格式:PPT 页数:43 大小:12.39MB
返回 下载 相关 举报
大数据技术与产业发展_第1页
第1页 / 共43页
大数据技术与产业发展_第2页
第2页 / 共43页
大数据技术与产业发展_第3页
第3页 / 共43页
大数据技术与产业发展_第4页
第4页 / 共43页
大数据技术与产业发展_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《大数据技术与产业发展》由会员分享,可在线阅读,更多相关《大数据技术与产业发展(43页珍藏版)》请在金锄头文库上搜索。

1、大数据技术与产业发展,汪东升 清华大学,引言,早在20世纪,瑞士心理学家荣格就发现了易经筮法中蕴涵的一种不同于因果原理的普遍联系法则,这同大数据技术的复杂相关性有着相似的地方。 2012年3月,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的能力。,2,大数据挖掘与利用,尿布&啤酒沃尔玛 在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤 酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 智能交通-

2、交通蝴蝶效应 英国布里斯托尔大学埃迪威尔逊博士的一项研究结果显示,适当条件下,一名司机急刹车或超车可能引发一场“交通海啸”,受影响路段长达80公里。 GOOGLE 提前一个月预测电影上映首周的票房收入,准确度高达94% 根据麦肯锡的估计,如果零售商能够充分发挥大数据的优势,其营运利润率就会有年均60%的增长空间,生产效率将会实现年均0.5%1%的增长幅度。,3,关于大数据,4,没有标准的定义 “Big Data” is data whose scale, diversity, and complexity require new architecture, techniques, algori

3、thms, and analytics to manage it and extract value and hidden knowledge from it,计算模型发展,以人为本!,6,技術演進歷史揭示未來是大数据驅動的智慧型經濟模式,大数据的特点,8,大数据的3V 特性之于存储 Volume-经济存储 Velocity-层次存储 Variety - 策略存储,Big Data: 3Vs,9,4V 特性,10,Sina的抑郁症研究,11,存在抑郁倾向的微博用户与普通用户发博时间有明显差异,这部分人群发博高峰在23点,其夜间活跃度比普通用户平均约高出30%。该群体微博关键词为:死、抑郁症、生

4、命、痛苦、自杀。有60%为女性,40%为男性,女性比例比男性略高,大数据之于色情业,12,陈坤VS黄晓明:用大数据解读大明星,13,知其然而不知其所以然,Big Data: A Revolution That Will Transform How We Live, Work, and Think 关注“是什么(关联)”,而不是“为什么(因果)” “龙王”萧劲腾,83.3% 2012年7月21日,北京演唱会 8月8日,上海演唱会50年最大台风 10月31日,纽约,飓风“桑迪” 11月5日,天津演唱会雨太大延期,14,科学研究的第四范式,科学实验 理论科学 (开普勒定律 牛顿定律) 计算科学 大数

5、据 完整的科学研究周期 数据采集 数据整理 数据分析和数据可视化。,15,16,数据处理的变迁,OLTP: Online Transaction Processing (DBMSs) OLAP: Online Analytical Processing (Data Warehousing) RTAP: Real-Time Analytics Processing (Big Data Architecture & technology),17,大数据的源头,Social media and networks (all of us are generating data),Scientific i

6、nstruments (collecting all sorts of data),Mobile devices (tracking all objects all the time),Sensor technology and networks (measuring all kinds of data),The progress and innovation is no longer hindered by the ability to collect data But, by the ability to manage, analyze, summarize, visualize, and

7、 discover knowledge from the collected data in a timely manner and in a scalable fashion,18,生产/消费数据模型发生了变化,Old Model: Few companies are generating data, all others are consuming data,19,IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和 被复制的数据总量为1.8ZB (1021 ) 。 IDC认为,到下一个十年(2020年),全球所有IT 部门拥有服务器的总量将会比现在多

8、出10倍,所管理的数据将会比现在多出50倍。预计到2020 年,全球将总共拥有35ZB的数据量 2011年企业创造、采集、管理和储存信息的成本 已经下降到2005年的1/6,而同期企业关于数据 的总投资自2005年以来却反而上升了50%。 数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。,20,超越BI,- Ad-hoc querying and reporting - Data mining techniques - Structured data, typical sour

9、ces - Small to mid-size datasets,- Optimizations and predictive analytics - Complex statistical analysis - All types of data, and many sources - Very large datasets - More of a real-time,21,大数据分析的价值,Big data is more real-time in nature than traditional DW applications Traditional DW architectures (e

10、.g. Exadata, Teradata) are not well-suited for big data apps Shared nothing, massively parallel processing, scale out architectures are well-suited for big data apps,22,大数据的挑战,The Bottleneck is in technology New architecture, algorithms, techniques are needed Also in technical skills Experts in usin

11、g the new technology and dealing with big data,23,利用用户”行为指纹”创造新商机,用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。 这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。,大数据的构成,大数据 = 海量数据 + 复杂类型的数据,海量交易数据: 企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构

12、化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。,大数据包括: 交易数据和交互数据集在内的所有数据集,海量交互数据: 源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以预测未来。,海量数据处理: 大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的Apache Hadoop。,

13、26,27,Gartner 2013年技术成熟度曲线,28,BD,2013年技术成熟度曲线解读,大数据正在由过热期转向低谷期 物联网将成为新的热点话题 云计算、内存分析和企业3D打印日益成熟,29,Gartner总结2014年十大科技趋势-,第一、移动设备的多样性和管理 Gartner 暗示从现在起直到2018年,自发形成的“自带设备”办公( BYOD)引发种类繁多的移动设备层出不穷,不同的用户环境和交互模式将导致“任一设备、任一地点”的战略无法实现。引发的新问题便是企业如何针对自带设备制定新的政策,以便平衡好灵活性与保密和隐私需求。 第二、移动应用和应用程序 第三、万物互联(Internet

14、 of Everything) 互联网的四个基本应用模型分别为管理、货币化、操作和扩展。这些模型可以应用于任何人、物、信息和场所,因此,“物联网”终将会被“万物互联”所取代。 第四、混合云和IT成为服务经纪人 Gartner暗示个人云和外部私有云服务整合势在必行。 第五、云/客户端架构 第六、个人云时代 个人云技术的发展将导致设备向服务转移。在此情况下,设备的特性将不再重要,个人云数据可以在多种设备上访问,并将会取代传统设备所具有的部分功能。 第七、软件定义一切 第八、Web-scale IT。 第九、智能机器 第十、3D打印,30,Gartner发布2014年及未来十大预测,数字产业革命 数

15、字业务 到2020年,数字化带来的劳动力缩减将导致社会不稳定,数个成熟经济体也将需要新经济模型。短期关注点:到2014年底,将会出现更大规模的“占领华尔街”型的运动,意味着社会动荡将开始推动政治讨论。 到2017年,80%的消费者将收集、追踪和交易其个人信息,以实现成本节约、方便以及定制化。短期关注点:到2014年,基于Kickstarter的个人数据的拍卖数量将以三位数增长。 到2020年,企业和政府将无法保护75%的敏感数据,并会取消保密等级,允许大范围人群/公众访问。短期关注点:到2015年,至少会出现一个斯诺登或维基泄密事件,意味着企业和政府对于他们不能保护所有敏感信息这一事实的情况呈

16、上升趋势。 企业和政府存储和使用的数据量在大规模地增加,要保护所有这些数据是不现实的。相比较承担保护所有数据这一无底的任务,企业和政府会更专注于保护其中一小部分,并且要保护得很好。 智能机器 物联网 在当代社会,物联网结合了机器、人类和商业之间的互联。让“参与”这个词成为真正有价值的资产。 2020年,从可穿戴设备获取的消费者数据将推动来自全球1000强的5%的销售。短期关注点:到到2015年,分享消费者数据的智能手机应用数量将增长两倍,意味着想要获取消费者个人数据的营销人员或所有者的数目在增加。 五年内,消费者可穿戴产品将变得更加先进,他们可以捕捉用户所见,甚至通过生物响应进行倾听或感知。,31,智慧城市,保增长,智慧电网,智能交通,智慧金融,智慧通讯,食品安全,医疗保障,水源水质,智能楼宇,公共安全,工作就业,政府服务,指挥中心,保民生,保稳定,-IBM,33,云计算-物联网-大数据,“云”、“物”的核心是“大数据” 云计算计算/业务模式 物联网应用模式 大数据财富

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号