大数据技术与产业发展

上传人:s9****2 文档编号:568674339 上传时间:2024-07-26 格式:PPT 页数:43 大小:12.45MB
返回 下载 相关 举报
大数据技术与产业发展_第1页
第1页 / 共43页
大数据技术与产业发展_第2页
第2页 / 共43页
大数据技术与产业发展_第3页
第3页 / 共43页
大数据技术与产业发展_第4页
第4页 / 共43页
大数据技术与产业发展_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《大数据技术与产业发展》由会员分享,可在线阅读,更多相关《大数据技术与产业发展(43页珍藏版)》请在金锄头文库上搜索。

1、清华大学清华大学 引言引言v早在20世纪,瑞士心理学家荣格就发现了易经筮法中蕴涵的一种不同于因果原理的普遍联系法则,这同大数据技术的复杂相关性有着相似的地方。v2012年3月,奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,并且定义为“未来的新石油”,希望增强政府收集、分析和萃取海量数据的能力。2大数据挖掘与利用大数据挖掘与利用v尿布&啤酒沃尔玛在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤 酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。v智能交通-交通蝴蝶效

2、应 英国布里斯托尔大学埃迪威尔逊博士的一项研究结果显示,适当条件下,一名司机急刹车或超车可能引发一场“交通海啸”,受影响路段长达80公里。vGOOGLE 提前一个月预测电影上映首周的票房收入,准确度高达94%v根据麦肯锡的估计,如果零售商能够充分发挥大数据的优势,其营运利润率就会有年均60%的增长空间,生产效率将会实现年均0.5%1%的增长幅度。3关于大数据关于大数据v没有标准的定义“Big Data” is data whose scale, diversity, and complexity require new architecture, techniques, algorithms,

3、 and analytics to manage it and extract value and hidden knowledge from it4计算模型发展以人为本!以人为本!6技術演進歷史揭示未來是大数据驅動的智慧型經濟模式大数据的特点大数据的特点Banking and SecuritiesCommunications, Media and ServicesEducation GovernmentHealthcare ProvidersInsurance Manufacturing and Natural Resources RetailTransportationUtilitiesW

4、holesale TradeVolume of DataVelocity of DataVariety of DataUnderutilized Dark Data Potential big data opportunity on each dimension is:Very hot (compared with other industries)HotModerateLowVery low (compared with other industries)大数据的3V 特性之于存储Volume-经济存储Velocity-层次存储Variety - 策略存储8Big Data: 3Vs94V

5、特性特性10Sina的抑郁症研究的抑郁症研究存在抑郁倾向的微博用户与普通用户发博时间有明显差异,这部分人群发博高峰在23点,其夜间活跃度比普通用户平均约高出30%。该群体微博关键词为:死、抑郁症、生命、痛苦、自杀。有60%为女性,40%为男性,女性比例比男性略高11大数据之于色情大数据之于色情业12陈坤坤VS黄黄晓明:用大数据解明:用大数据解读大明星大明星13知其然而不知其所以然知其然而不知其所以然vBig Data: A Revolution That Will Transform How We Live, Work, and Thinkv关注“是什么(关联)”,而不是“为什么(因果)”v“

6、龙王”萧劲腾,83.3%2012年7月21日,北京演唱会8月8日,上海演唱会50年最大台风10月31日,纽约,飓风“桑迪”11月5日,天津演唱会雨太大延期14科学研究的第四范式科学研究的第四范式v科学实验v理论科学 (开普勒定律 牛顿定律)v计算科学 v大数据 完整的科学研究周期 数据采集 数据整理 数据分析和数据可视化。1516数据数据处处理的理的变变迁迁vOLTP: Online Transaction Processing (DBMSs)vOLAP: Online Analytical Processing (Data Warehousing)vRTAP: Real-Time Analy

7、tics Processing (Big Data Architecture & technology)17大数据的源大数据的源头头Social media and networks(all of us are generating data)Scientific instruments(collecting all sorts of data) Mobile devices (tracking all objects all the time)Sensor technology and networks(measuring all kinds of data) vThe progress a

8、nd innovation is no longer hindered by the ability to collect datavBut, by the ability to manage, analyze, summarize, visualize, and discover knowledge from the collected data in a timely manner and in a scalable fashion18生生产产/消消费费数据模型数据模型发发生了生了变变化化Old Model: Few companies are generating data, all o

9、thers are consuming data New Model: all of us are generating data, and all of us are consuming data 19vIDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和 被复制的数据总量为1.8ZB (1021 ) 。 vIDC认为,到下一个十年(2020年),全球所有IT 部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020 年,全球将总共拥有35ZB的数据量 v2011年企业创造、采集、管理和储存信息的成本 已经下降到2005

10、年的1/6,而同期企业关于数据 的总投资自2005年以来却反而上升了50%。 v数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。 20超越超越BI- Ad-hoc querying and reporting- Data mining techniques- Structured data, typical sources- Small to mid-size datasets- Optimizations and predictive analytics- Complex s

11、tatistical analysis- All types of data, and many sources- Very large datasets- More of a real-time 21大数据分析的价大数据分析的价值值vBig data is more real-time in nature than traditional DW applicationsvTraditional DW architectures (e.g. Exadata, Teradata) are not well-suited for big data appsvShared nothing, mass

12、ively parallel processing, scale out architectures are well-suited for big data apps22大数据的挑大数据的挑战vThe Bottleneck is in technologyNew architecture, algorithms, techniques are neededvAlso in technical skillsExperts in using the new technology and dealing with big data 23利用用户利用用户”行为指纹行为指纹”创造新商机创造新商机用户在

13、线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,形成用户“行为指纹”,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。所有传统的产品公司都只能沦为这种新型用户平台级公司的附庸。大数据的构成大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源

14、于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以预测未来。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。2627Gartner 2013年技年技术成熟度曲成熟度曲线BD282013年技年技术成熟度曲成熟度曲线解解读v大数据正在由大数据正在由过热期期转向低谷期向低谷期v物物联网将成

15、网将成为新的新的热点点话题v云云计算、内存分析和企算、内存分析和企业3D打印日益成熟打印日益成熟29Gartner总结2014年十大科技年十大科技趋势-v第一、移动设备的多样性和管理 Gartner 暗示从现在起直到2018年,自发形成的“自带设备”办公( BYOD)引发种类繁多的移动设备层出不穷,不同的用户环境和交互模式将导致“任一设备、任一地点”的战略无法实现。引发的新问题便是企业如何针对自带设备制定新的政策,以便平衡好灵活性与保密和隐私需求。v第二、移动应用和应用程序v第三、万物互联(Internet of Everything) 互联网的四个基本应用模型分别为管理、货币化、操作和扩展。

16、这些模型可以应用于任何人、物、信息和场所,因此,“物联网”终将会被“万物互联”所取代。v第四、混合云和IT成为服务经纪人 Gartner暗示个人云和外部私有云服务整合势在必行。v第五、云/客户端架构v第六、个人云时代 个人云技术的发展将导致设备向服务转移。在此情况下,设备的特性将不再重要,个人云数据可以在多种设备上访问,并将会取代传统设备所具有的部分功能。v第七、软件定义一切v第八、Web-scale IT。v第九、智能机器v第十、3D打印v 30Gartner发布布2014年及未来十大年及未来十大预测数字数字产业产业革命革命数字数字业务业务 到到2020年,数字化年,数字化带带来的来的劳动劳

17、动力力缩缩减将减将导导致社会不致社会不稳稳定,数个成熟定,数个成熟经济经济体也将需要新体也将需要新经济经济模型。短模型。短期关注点:期关注点:到2014年底,将会出现更大规模的“占领华尔街”型的运动,意味着社会动荡将开始推动政治讨论。 到到2017年,年,80%的消的消费费者将收集、追踪和交易其个人信息,以者将收集、追踪和交易其个人信息,以实现实现成本成本节约节约、方便以及定制化。短、方便以及定制化。短期关注点:期关注点:到2014年,基于Kickstarter的个人数据的拍卖数量将以三位数增长。 到到2020年,企年,企业业和政府将无法保和政府将无法保护护75%的敏感数据,并会取消保密等的敏

18、感数据,并会取消保密等级级,允,允许许大范大范围围人群人群/公众公众访问访问。短期关注点短期关注点:到2015年,至少会出现一个斯诺登或维基泄密事件,意味着企业和政府对于他们不能保护所有敏感信息这一事实的情况呈上升趋势。 企业和政府存储和使用的数据量在大规模地增加,要保护所有这些数据是不现实的。相比较承担保护所有数据这一无底的任务,企业和政府会更专注于保护其中一小部分,并且要保护得很好。智能机器智能机器物物联联网网 在当代社会,物联网结合了机器、人类和商业之间的互联。让“参与”这个词成为真正有价值的资产。 2020年,从可穿戴年,从可穿戴设备获设备获取的消取的消费费者数据将推者数据将推动动来自

19、全球来自全球1000强强的的5%的的销销售。短期关注点:售。短期关注点:到到2015年,分享消费者数据的智能手机应用数量将增长两倍,意味着想要获取消费者个人数据的营销人员或所有者的数目在增加。 五年内,消费者可穿戴产品将变得更加先进,他们可以捕捉用户所见,甚至通过生物响应进行倾听或感知。31智慧城市智慧城市保增保增长长智慧电网智能交通智慧金融智慧通讯食品安全医疗保障水源水质智能楼宇公共安全工作就业政府服务指挥中心保民生保民生保保稳稳定定 -IBM33云云计算算-物物联网网-大数据大数据v“云”、“物”的核心是“大数据”云计算计算/业务模式物联网应用模式大数据财富、资产 隐性货币 商业模式驱动应

20、用需求驱动343536分析技术:数据处理:自然语言处理技术统计和分析:A/Btest;topN排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等一些相关技术存储结构化数据:p海量数据的查询、统计、更新等操作效率低非结构化数据p图片、视频、word、pdf、ppt等文件存储p不利于检索、查询和存储半结构化数据p转换为结构化存储p按照非结构化存储解决方案:Hadoop(MapReduce技术)流计算

21、(twitter的storm和yahoo!的S4)大数据大数据 大机会大机会 大挑大挑战vBig data, big analysisvGreat challenges, most opportunities vBig store, parallel computingvSafety is more importantv 38大数据大数据带带来的来的问题问题v核心技术v人才数据科学家 工程师统计学人才 (小样本 概率统计)数据挖掘人才 (多变量统计)v信息资源保护意识的缺失造成的极大安全隐患国家安全v大数据利用的不开放性会带来新的垄断和社会资源浪费数据共享v大数据对思维方式、商业模式、个人的影

22、响 v大数据时代的个人隐私394V的再次解的再次解读读vVolume-数据的高效管理 存储&压缩vVelocity-1s界限 数据的高效组织管理vVariety 多样性 组合运用结构化和非结构化数据来寻找问题的答案,是成功进行预测分析的基础。但只有利用全部可用数据构建一幅完整的图景,才有可能做出精确预测vVaracity 诚信大数据时代成立的基本假定是“基本数据是准确、可靠、值得信赖的,来龙去脉清楚,并且具有一致性40建建议议和意和意见见v自然科学研究、环境保护、生物医药研究、教育以及国家安全等领域才是大数据技术突破的重点v建立数据生态系统政府-引领者和催化剂科研院所-机构-企业-政府制定法律

23、法规建立开放数据共享平台(组织)-数据慈善事业商业模式-鼓励企业为社会效益而分享和使用数据 (搜索 社会网络免费行为指纹价值)鼓励发展技术基础设施和训练个人分析大数据的能力公共数据:人口普查 医疗卫生记录 税收支出 设施数据 由公共部门保护的的敏感群众的不记名数据 众包数据开放数据共享平台隐私标准和安全 个性化数据数据共享激励机制 退出人力资本 41引用引用专专家的家的话话v从国家高度重视未来大数据的作用,尽早制定国家大数据研究与产业发展规划。v充分考虑统筹物联网、云计算以及智慧城市建设的发展趋势,加强顶层设计,统筹相关政策。v明确大数据产业发展方向。在扶持大数据在电商企业应用的同时,更要大力支持大数据在基础科学研究、国防以及若干关键领域的应用研究,通过加大大数据的应用提高各行各业的能力和水平。v加强大数据的关键技术研究,确保我国未来在该领域的控制能力,逐步摆脱我国长期以来在信息化建设的各个方面都受制于人的被动局面。v尤其要密切关注国内大数据产业的市场动态,分析未来发展趋势,加强应对措施。v着力培育国内IT企业的大数据产业发展环境,从政府采购、财税金融以及人才开发等方面制定积极的促进措施,支持国内IT企业在大数据领域的研究开发与投资建设的积极性和主动性。42v 谢 谢v(本ppt部分数据和图片选自网络)43

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库 > 金融/商业/投资

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号