《云计算导论》李伯虎、李兵云计算导论第7章

上传人:E**** 文档编号:100446940 上传时间:2019-09-23 格式:PPTX 页数:124 大小:6.83MB
返回 下载 相关 举报
《云计算导论》李伯虎、李兵云计算导论第7章_第1页
第1页 / 共124页
《云计算导论》李伯虎、李兵云计算导论第7章_第2页
第2页 / 共124页
《云计算导论》李伯虎、李兵云计算导论第7章_第3页
第3页 / 共124页
《云计算导论》李伯虎、李兵云计算导论第7章_第4页
第4页 / 共124页
《云计算导论》李伯虎、李兵云计算导论第7章_第5页
第5页 / 共124页
点击查看更多>>
资源描述

《《云计算导论》李伯虎、李兵云计算导论第7章》由会员分享,可在线阅读,更多相关《《云计算导论》李伯虎、李兵云计算导论第7章(124页珍藏版)》请在金锄头文库上搜索。

1、,第7章 云计算发展展望,何清 中国科学院计算技术研究所 Email: heqing 2018.07.17,内容提要,7.1 “云计算+大数据+人工智能”三位一体发展战略 7.2 云计算与新技术的融合 7.3 云计算产业生态及其地位 7.4 面向新型计算模式的云计算,2019/9/23,何清中国科学院计算技术研究所,2,内容提要,7.1 “云计算+大数据+人工智能”三位一体发展战略 7.2 云计算与新技术的融合 7.3 云计算产业生态及其地位 7.4 面向新型计算模式的云计算,2019/9/23,何清中国科学院计算技术研究所,3,7.1 “云计算+大数据+人工智能”三位一体发展战略,7.1.1

2、 新型云计算引擎 7.1.2 多模态大数据燃料 7.1.3 魔幻人工智能火箭 7.1.4 三位一体交互发展,2019/9/23,何清中国科学院计算技术研究所,4,7.1 “云计算+大数据+人工智能”三位一体发展战略,7.1.1 新型云计算引擎 7.1.2 多模态大数据燃料 7.1.3 魔幻人工智能火箭 7.1.4 三位一体交互发展,2019/9/23,何清中国科学院计算技术研究所,5,云计算+大数据+人工智能,2019/9/23,何清中国科学院计算技术研究所,6,大数据,云计算,人工智能,现代新 科 技,7.1.1 新型云计算引擎,2003年云计算诞生 2008年中国云计算的元年 2009年我

3、国云计算应用全面落地,2019/9/23,何清中国科学院计算技术研究所,7,云计算与云服务遍地开花,基于云计算的新平台和新服务将不断涌现并繁荣发展 硬件即服务Haas(Hardware as a service) 基础架构即服务Iaas(Infrastructure as a service) 平台即服务Paas(Platform as a service) 软件即服务Saas (Software as a service) 数据即服务Daas(Data as a service) 物联网即服务Maas(Machine as a service) 一切事物即服务Eaas(Everything

4、as a service),2019/9/23,何清中国科学院计算技术研究所,8,云计算是新技术革命的发动机,为大数据与人工智能技术发展提供计算技术支撑 基于云的虚拟桌面云脑将取代家庭和商用PC 计算和存储主要在云端,2019/9/23,何清中国科学院计算技术研究所,9,云计算是新技术革命的发动机,2019/9/23,何清中国科学院计算技术研究所,10,7.1 “云计算+大数据+人工智能”三位一体发展战略,7.1.1 新型云计算引擎 7.1.2 多模态大数据燃料 7.1.3 魔幻人工智能火箭 7.1.4 三位一体交互发展,2019/9/23,何清中国科学院计算技术研究所,11,7.1.2 多模

5、态大数据燃料,2019/9/23,何清中国科学院计算技术研究所,12,包含文本、图片、视频、声音的多模态大数据,2019/9/23,何清中国科学院计算技术研究所,13,何谓大数据,维基百科: 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集 狭义:超过内存容量的数据 大数据的规模大小是一个不断演化的指标 目前范围是指在一个单一的数据集从数十TB到十几PB级的数据规模 TBPBEBZB,2019/9/23,何清中国科学院计算技术研究所,14,大数据悖论,1条数据=小数据 2条数据=小数据 3条数据=小数据 n条数据=小数据 n +1条数据=

6、小数据 有限条数据是小数据,真值为1 真值为(1 E ) 真值为(1 E ) 2 真值为(1 E ) 1 真值为(1 E ) 真值随条数增加趋于0,数学上看大数据,在数学上来看,计算机中存在不断变大的数据集,不存在绝对的大数据 计算机中的所有数据集都是有限集合 计算机中不存在无限集合 计算机中的大数据集不具有无限可分割性 没有比一个比特更小的数据单元 计算机中的所有数据表达都有精度的限制 这种限制导致了算法精度的受限 计算机无法对无理数进行运算得到精确结果,2019/9/23,何清中国科学院计算技术研究所,16,大数据的其它特征,稠密与稀疏共存:局部稠密与全局稀疏 冗余与缺失并在:大量冗余与局

7、部缺失 显式与隐式均有:大量显式与丰富隐式 静态与动态忽现:动态演进与静态关联 多元与异质共处:多元多变与异质异性 量大与可用矛盾:量大低值与可用稀少,2019/9/23,何清中国科学院计算技术研究所,17,大数据规模的演化,1946年,美国陆军的巨大ENIAC - 世界上第一个“电子大脑”具备了处理信息的能力,从氢弹模型计算到用来预测天气 今天,CERN欧洲粒子物理实验室在瑞士日内瓦附近的大型强子对撞机将产生平均一秒产生的数据要600万台ENIACs的存储 Cisco预测2013年互联网数据将达到667EB 2015年大型综合巡天望远镜会产生一个类似规模的数据,2019/9/23,何清中国科

8、学院计算技术研究所,18,人类社会数据的增长,2019/9/23,何清中国科学院计算技术研究所,19,目前大数据的外延,大数据规模大小是一个不断演化的指标 当前任务处理的单一的数据集 从数十TB到十几PB级的数据规模 TBPBEBZB 处理大数据的可等待的合理时间依赖任务的目标 地震数据预测要求在几分钟内才有效 气象数据应该在小时级别 失联飞机数据处理要在7天之内 数据挖掘一般要求在12小时内,2019/9/23,何清中国科学院计算技术研究所,20,大数据带来的数学问题,大数据采样 如何把大数据变小 如何找到与算法相适应的极小样本集 采样对算法误差的影响 大数据如何表示 表示决定存储 表示影响

9、算法效率 大数据不一致问题 导致算法失效和无解 如何消解不一致,大数据中的超高维问题 超高维导致数据稀疏 算法复杂度增加 大数据中的不确定维问题 多维度数据并存 按任务定维难 大数据中的不适定性问题 高维导致问题的解太多难以抉择,2019/9/23,何清中国科学院计算技术研究所,21,大数据对科学规范的挑战,大数据带来了新的科研范式 大数据如何应用于开放的研究 如何重现大数据研究结果 大数据研究结果可信吗,大数据带来的社会问题,谁有权收集大数据 谁有权拥有大数据 大数据生产如何规划 大数据污染如何控制 大数据销毁如何抉择 大数据如何传给后代,2019/9/23,何清中国科学院计算技术研究所,2

10、3,大数据带来的技术挑战,描述与存储的挑战 高效查询大海捞针 分析与理解的挑战 理解大数据盲人摸象 挖掘与预测的挑战 增加样本容易,降低算法复杂度难 并非所有的算法具有高度的并行性 并行不能降低算法复杂度,1951,1956,1961,1969,1973,1976,1979,1983,1985,1991,1995,2001,2003,2008,2009,磁带和穿孔卡片,磁盘驱动器,第一个数据库系统IDS,关系数据库,网络模型数据库,第一个商用关系数据,第一个商用SQL关系数据,DB2数据库,第一个商务智能系统,构建数据仓库,分布式缓存技术,基于MPP分布式数据库,GFS,HDFS,HBase

11、Hive,大数据VS云存储,大数据管理的挑战,可扩展的数据管理 弹性有效地利用现有资源减少管理操作的成本 对于大型应用程序的数据管理 支持大单租户系统 大型多租户数据库 大量的应用程序每个程序占用很小的数据空间 支持更新密集型工作负载 支持大型多用户系统,大数据管理的挑战,传递的格式和速度、规模和复杂性 需要管理内存DBMS 分析已成为数据仓库的主要驱动应用, 外部和内部分别使用MapReduce和DBMS 按需整合来自多个源信息的逻辑数据仓库 代替单一的数据仓库模式,大数据管理要求,传递的格式和速度、规模和复杂性已超出传统数据管理技术的能力,它们需要使用新的或先进的技术并仅用来管理容量,如内

12、存DBMS 分析已成为数据仓库的主要驱动应用,其外部和内部分别使用了MapReduce和DBMS,同时还使用自助数据集 未来用户不能将所有有用的信息放置在单一的数据仓库 按需整合来自多个源信息的逻辑数据仓库将代替单一的数据仓库模式,云存储大数据管理途径,数据存储与管理关注大数据的容量 可扩展的数据管理 对于大型应用程序的数据管理 大型多租户数据库 在云中数据管理的另一个重要领域是需要支持大量的应用程序,其中每个应用程序占用一个很小的数据空间 一个重要的开放问题是如何使系统弹性有效地利用现有资源,并最大限度地减少的操作的成本 针对性的设计空间DBMS支持更新密集型工作负载,支持大单租户系统和大型

13、多用户系统,大数据:创新,竞争和 生产中的下一个前沿领域,现代经济活动创新和增长根本不可能在无数据的情况下发生 数据如同其他硬资产和人力资本等的生产要素 大数据是一个技术问题更是商业机会 大数据分析需要应用先进的分析技术 复杂的统计算法成为常用的科学工具包 数据挖掘成为理解数据的利器,2019/9/23,何清中国科学院计算技术研究所,30,云计算的机遇,数据处理规模大幅度提高 由于并行化在利用原有设备的条件下就可以有大幅度提高 扩展性好 可以很方便地增加节点 容错计算健壮性强 可自动处理失败节点,具有高容错能力 个别节点down掉,仍能完成计算任务,2019/9/23,何清中国科学院计算技术研

14、究所,31,大数据集的挑战 缺少大数据复杂度冗余度的度量方法 缺少确保近似算法精度分析方法 缺少根据分布知识对大数据进行抽样的方法 数据复杂性的挑战 超高维、稀疏、多模态 数据动态增长的挑战,研究分布式并行计算环境下的大数据大数据分析的基本策略 与数据分布相联系的分治策略 与算法机理相结合的并行策略 研究复杂度降精度可控的新的大数据分析算法 大数据分类、聚类、关联分析、异常发现等 大数据大数据分析平台研发,大数据如何变小分治,唯有分治才能并行 唯有分治才能高效 合理分治是关键 综合以分治为基础 分治以综合为目标,2019/9/23,何清中国科学院计算技术研究所,33,大数据如何变小择维,相对特

15、定任务大数据属性冗余 属性地位不同权重不同 高度相关属性可互相代替 无关属性可以去除,2019/9/23,何清中国科学院计算技术研究所,34,大数据如何变小抽样,能发现大数据分布的算法 庖丁解牛 能反映大数据分布的抽样方法 解剖麻雀 追求高效并行的全量数据挖掘的算法离不开抽样 治大国如烹小鲜,大数据理解分布,理解分布知己知彼选择算法 分布决定抽样 分布决定挖掘性能,2019/9/23,何清中国科学院计算技术研究所,36,大数据理解语义,理解语义智能应用的核心与关键 发现语义提高机器智能,2019/9/23,何清中国科学院计算技术研究所,37,大数据挖掘的云计算时代,第一代,第二代,第三代,第四

16、代,第五代,大数据挖掘关注获取有效的、可理解的知识 数据挖掘任务更关注大数据挖掘算法运行的计算时间 精准的数据挖掘算法的计算量如何减下来,2019/9/23,何清中国科学院计算技术研究所,39,大数据挖掘需求,大数据挖掘需要什么样的算法,针对大数据挖掘的关联分析、聚类分析、分类分析、异常分析、演变分析等等 大数据挖掘受算法复杂度、并行度和数据吞吐速度的制约 大数据挖掘能处理高维、多模态、多类大数据,大数据挖掘的关键问题与核心技术,关键问题 高效数据预处理 海量数据实时联机在线分析 高效数据挖掘算法并行化 行业数据挖掘 核心技术 高效并行的预处理算法 交互友好的联机在线分析技术 高效的并行化策略 行业相关的高效挖掘策略,41,大数据挖掘要求,选择复杂度低的算法 数据挖掘算法往往是高复杂度甚至是NP难 增加十倍的样本容易,由此带来百倍以上的计算量是难以承受的 尽量把全

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号