《云计算导论》李伯虎、李兵云计算导论第7章

资源描述

《《云计算导论》李伯虎、李兵云计算导论第7章》由会员分享，可在线阅读，更多相关《《云计算导论》李伯虎、李兵云计算导论第7章（124页珍藏版）》请在金锄头文库上搜索。

1、,第7章云计算发展展望,何清中国科学院计算技术研究所 Email: heqing 2018.07.17,内容提要,7.1 “云计算+大数据+人工智能”三位一体发展战略 7.2 云计算与新技术的融合 7.3 云计算产业生态及其地位 7.4 面向新型计算模式的云计算,2019/9/23,何清中国科学院计算技术研究所,2,内容提要,7.1 “云计算+大数据+人工智能”三位一体发展战略 7.2 云计算与新技术的融合 7.3 云计算产业生态及其地位 7.4 面向新型计算模式的云计算,2019/9/23,何清中国科学院计算技术研究所,3,7.1 “云计算+大数据+人工智能”三位一体发展战略,7.1.1

2、新型云计算引擎 7.1.2 多模态大数据燃料 7.1.3 魔幻人工智能火箭 7.1.4 三位一体交互发展,2019/9/23,何清中国科学院计算技术研究所,4,7.1 “云计算+大数据+人工智能”三位一体发展战略,7.1.1 新型云计算引擎 7.1.2 多模态大数据燃料 7.1.3 魔幻人工智能火箭 7.1.4 三位一体交互发展,2019/9/23,何清中国科学院计算技术研究所,5,云计算+大数据+人工智能,2019/9/23,何清中国科学院计算技术研究所,6,大数据,云计算,人工智能,现代新科技,7.1.1 新型云计算引擎,2003年云计算诞生 2008年中国云计算的元年 2009年我

3、国云计算应用全面落地,2019/9/23,何清中国科学院计算技术研究所,7,云计算与云服务遍地开花,基于云计算的新平台和新服务将不断涌现并繁荣发展硬件即服务Haas（Hardware as a service）基础架构即服务Iaas（Infrastructure as a service）平台即服务Paas（Platform as a service）软件即服务Saas （Software as a service）数据即服务Daas（Data as a service）物联网即服务Maas（Machine as a service）一切事物即服务Eaas（Everything

4、as a service）,2019/9/23,何清中国科学院计算技术研究所,8,云计算是新技术革命的发动机,为大数据与人工智能技术发展提供计算技术支撑基于云的虚拟桌面云脑将取代家庭和商用PC 计算和存储主要在云端,2019/9/23,何清中国科学院计算技术研究所,9,云计算是新技术革命的发动机,2019/9/23,何清中国科学院计算技术研究所,10,7.1 “云计算+大数据+人工智能”三位一体发展战略,7.1.1 新型云计算引擎 7.1.2 多模态大数据燃料 7.1.3 魔幻人工智能火箭 7.1.4 三位一体交互发展,2019/9/23,何清中国科学院计算技术研究所,11,7.1.2 多模

5、态大数据燃料,2019/9/23,何清中国科学院计算技术研究所,12,包含文本、图片、视频、声音的多模态大数据,2019/9/23,何清中国科学院计算技术研究所,13,何谓大数据,维基百科: 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集，管理和处理数据能力的数据集狭义:超过内存容量的数据大数据的规模大小是一个不断演化的指标目前范围是指在一个单一的数据集从数十TB到十几PB级的数据规模 TBPBEBZB,2019/9/23,何清中国科学院计算技术研究所,14,大数据悖论,1条数据=小数据 2条数据=小数据 3条数据=小数据 n条数据=小数据 n +1条数据=

6、小数据有限条数据是小数据,真值为1 真值为(1 E ) 真值为(1 E ) 2 真值为(1 E ) 1 真值为(1 E ) 真值随条数增加趋于0,数学上看大数据,在数学上来看，计算机中存在不断变大的数据集，不存在绝对的大数据计算机中的所有数据集都是有限集合计算机中不存在无限集合计算机中的大数据集不具有无限可分割性没有比一个比特更小的数据单元计算机中的所有数据表达都有精度的限制这种限制导致了算法精度的受限计算机无法对无理数进行运算得到精确结果,2019/9/23,何清中国科学院计算技术研究所,16,大数据的其它特征,稠密与稀疏共存：局部稠密与全局稀疏冗余与缺失并在：大量冗余与局

7、部缺失显式与隐式均有：大量显式与丰富隐式静态与动态忽现：动态演进与静态关联多元与异质共处：多元多变与异质异性量大与可用矛盾：量大低值与可用稀少,2019/9/23,何清中国科学院计算技术研究所,17,大数据规模的演化,1946年，美国陆军的巨大ENIAC - 世界上第一个“电子大脑”具备了处理信息的能力,从氢弹模型计算到用来预测天气今天，CERN欧洲粒子物理实验室在瑞士日内瓦附近的大型强子对撞机将产生平均一秒产生的数据要600万台ENIACs的存储 Cisco预测2013年互联网数据将达到667EB 2015年大型综合巡天望远镜会产生一个类似规模的数据,2019/9/23,何清中国科

8、学院计算技术研究所,18,人类社会数据的增长,2019/9/23,何清中国科学院计算技术研究所,19,目前大数据的外延,大数据规模大小是一个不断演化的指标当前任务处理的单一的数据集从数十TB到十几PB级的数据规模 TBPBEBZB 处理大数据的可等待的合理时间依赖任务的目标地震数据预测要求在几分钟内才有效气象数据应该在小时级别失联飞机数据处理要在7天之内数据挖掘一般要求在12小时内,2019/9/23,何清中国科学院计算技术研究所,20,大数据带来的数学问题,大数据采样如何把大数据变小如何找到与算法相适应的极小样本集采样对算法误差的影响大数据如何表示表示决定存储表示影响

9、算法效率大数据不一致问题导致算法失效和无解如何消解不一致,大数据中的超高维问题超高维导致数据稀疏算法复杂度增加大数据中的不确定维问题多维度数据并存按任务定维难大数据中的不适定性问题高维导致问题的解太多难以抉择,2019/9/23,何清中国科学院计算技术研究所,21,大数据对科学规范的挑战,大数据带来了新的科研范式大数据如何应用于开放的研究如何重现大数据研究结果大数据研究结果可信吗,大数据带来的社会问题,谁有权收集大数据谁有权拥有大数据大数据生产如何规划大数据污染如何控制大数据销毁如何抉择大数据如何传给后代,2019/9/23,何清中国科学院计算技术研究所,2

10、3,大数据带来的技术挑战,描述与存储的挑战高效查询大海捞针分析与理解的挑战理解大数据盲人摸象挖掘与预测的挑战增加样本容易，降低算法复杂度难并非所有的算法具有高度的并行性并行不能降低算法复杂度,1951,1956,1961,1969,1973,1976,1979,1983,1985,1991,1995,2001,2003,2008,2009,磁带和穿孔卡片,磁盘驱动器,第一个数据库系统IDS,关系数据库,网络模型数据库,第一个商用关系数据,第一个商用SQL关系数据,DB2数据库,第一个商务智能系统,构建数据仓库,分布式缓存技术,基于MPP分布式数据库,GFS,HDFS,HBase

11、Hive,大数据VS云存储,大数据管理的挑战,可扩展的数据管理弹性有效地利用现有资源减少管理操作的成本对于大型应用程序的数据管理支持大单租户系统大型多租户数据库大量的应用程序每个程序占用很小的数据空间支持更新密集型工作负载支持大型多用户系统,大数据管理的挑战,传递的格式和速度、规模和复杂性需要管理内存DBMS 分析已成为数据仓库的主要驱动应用, 外部和内部分别使用MapReduce和DBMS 按需整合来自多个源信息的逻辑数据仓库代替单一的数据仓库模式,大数据管理要求,传递的格式和速度、规模和复杂性已超出传统数据管理技术的能力，它们需要使用新的或先进的技术并仅用来管理容量,如内

12、存DBMS 分析已成为数据仓库的主要驱动应用,其外部和内部分别使用了MapReduce和DBMS,同时还使用自助数据集未来用户不能将所有有用的信息放置在单一的数据仓库按需整合来自多个源信息的逻辑数据仓库将代替单一的数据仓库模式,云存储大数据管理途径,数据存储与管理关注大数据的容量可扩展的数据管理对于大型应用程序的数据管理大型多租户数据库在云中数据管理的另一个重要领域是需要支持大量的应用程序，其中每个应用程序占用一个很小的数据空间一个重要的开放问题是如何使系统弹性有效地利用现有资源，并最大限度地减少的操作的成本针对性的设计空间DBMS支持更新密集型工作负载，支持大单租户系统和大型

13、多用户系统,大数据：创新，竞争和生产中的下一个前沿领域,现代经济活动创新和增长根本不可能在无数据的情况下发生数据如同其他硬资产和人力资本等的生产要素大数据是一个技术问题更是商业机会大数据分析需要应用先进的分析技术复杂的统计算法成为常用的科学工具包数据挖掘成为理解数据的利器,2019/9/23,何清中国科学院计算技术研究所,30,云计算的机遇,数据处理规模大幅度提高由于并行化在利用原有设备的条件下就可以有大幅度提高扩展性好可以很方便地增加节点容错计算健壮性强可自动处理失败节点，具有高容错能力个别节点down掉，仍能完成计算任务,2019/9/23,何清中国科学院计算技术研

14、究所,31,大数据集的挑战缺少大数据复杂度冗余度的度量方法缺少确保近似算法精度分析方法缺少根据分布知识对大数据进行抽样的方法数据复杂性的挑战超高维、稀疏、多模态数据动态增长的挑战,研究分布式并行计算环境下的大数据大数据分析的基本策略与数据分布相联系的分治策略与算法机理相结合的并行策略研究复杂度降精度可控的新的大数据分析算法大数据分类、聚类、关联分析、异常发现等大数据大数据分析平台研发,大数据如何变小分治,唯有分治才能并行唯有分治才能高效合理分治是关键综合以分治为基础分治以综合为目标,2019/9/23,何清中国科学院计算技术研究所,33,大数据如何变小择维,相对特

15、定任务大数据属性冗余属性地位不同权重不同高度相关属性可互相代替无关属性可以去除,2019/9/23,何清中国科学院计算技术研究所,34,大数据如何变小抽样,能发现大数据分布的算法庖丁解牛能反映大数据分布的抽样方法解剖麻雀追求高效并行的全量数据挖掘的算法离不开抽样治大国如烹小鲜,大数据理解分布,理解分布知己知彼选择算法分布决定抽样分布决定挖掘性能,2019/9/23,何清中国科学院计算技术研究所,36,大数据理解语义,理解语义智能应用的核心与关键发现语义提高机器智能,2019/9/23,何清中国科学院计算技术研究所,37,大数据挖掘的云计算时代,第一代,第二代,第三代,第四

16、代,第五代,大数据挖掘关注获取有效的、可理解的知识数据挖掘任务更关注大数据挖掘算法运行的计算时间精准的数据挖掘算法的计算量如何减下来,2019/9/23,何清中国科学院计算技术研究所,39,大数据挖掘需求,大数据挖掘需要什么样的算法,针对大数据挖掘的关联分析、聚类分析、分类分析、异常分析、演变分析等等大数据挖掘受算法复杂度、并行度和数据吞吐速度的制约大数据挖掘能处理高维、多模态、多类大数据,大数据挖掘的关键问题与核心技术,关键问题高效数据预处理海量数据实时联机在线分析高效数据挖掘算法并行化行业数据挖掘核心技术高效并行的预处理算法交互友好的联机在线分析技术高效的并行化策略行业相关的高效挖掘策略,41,大数据挖掘要求,选择复杂度低的算法数据挖掘算法往往是高复杂度甚至是NP难增加十倍的样本容易，由此带来百倍以上的计算量是难以承受的尽量把全

展开阅读全文