大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx

上传人:优*** 文档编号:127928669 上传时间:2020-04-07 格式:PPTX 页数:21 大小:3.17MB
返回 下载 相关 举报
大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx_第1页
第1页 / 共21页
大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx_第2页
第2页 / 共21页
大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx_第3页
第3页 / 共21页
大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx_第4页
第4页 / 共21页
大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx》由会员分享,可在线阅读,更多相关《大数据与云计算的科学内涵、关键技术及其应用PPT课件.pptx(21页珍藏版)》请在金锄头文库上搜索。

1、大数据的特征与科学内涵云计算的概念与关键技术云制造 大数据 云计算服务平台 2020 4 7 大数据的特征与科学内涵 大数据的背景 第一台计算机ENIAC面世 磁带 卡片人工管理 磁盘被发明 进入文件管理时代 SQL E R GE公司发明第一个网络模型数据库 但仅限于GE自己的主机 1960年代 IT系统规模和复杂度变大 数据与应用分离的需求开始产生 数据库技术开始萌芽并蓬勃发展 并在1990年后逐步统一到以关系型数据库为主导 IBME F Dodd提出关系模型 SQL语言被发明 关系型数据库 ORACLE发布第一个商用SQL关系数据库 后续快速发展 数据仓库 数据仓库开始涌现 关系数据库开始

2、全面普及且平台无关 进入成熟期 2001年后 互联网迅速发展 数据量成倍递增 量变引起质变 开始对数据管理技术提出全新的要求 1946年 电脑诞生 数据与应用紧密捆绑在文件中 彼此不分 Hadoop成为Apache顶级项目 重点支持海量数据分布式管理和分布式计算 GFS 谷歌发表论文介绍分布式计算 数据管理技术历经人工管理 文件管理 数据库管理等时代 大数据技术的出现使该领域进入了一个新的发展阶段 2020 4 7 全球信息化发展已步入大数据时代150亿个设备连接到互联网全球每秒钟发送290万封电子邮件每天有2 88万小时视频上传到YoutubeFacebook每日评论达32亿条 每天上传照片

3、近3亿张 每月处理数据总量约130万TB2011年全球产生数据量1 8ZB 预计2020年将增长到35ZB大数据正迅速成为最值得关注的IT领域之一2011年5月 EMCWorld2011大会主题 云计算相遇大数据 EMC除了一直倡导的云计算外 还抛出 大数据 BigData 概念2011年6月底 IBM 麦肯锡等众多国外机构发布 大数据 相关研究报告 予以积极跟进2011年10月 Gartner认为2012年十大战略技术将包括 大数据 2011年11月底 IDC将 大数据 放入2012年信息通信产业十大预测之一 IDC全球数据量预测 1ZB 1百万PB 10亿TB Google网站Bigdat

4、a关键词搜索及新闻引用量 大数据的背景 大数据的特征与科学内涵 2020 4 7 大数据的背景 商业解决方案 HP2011年推出vertica数据库Oracle2011年推出noSQL数据库EMC2010年收购GreenplumTeradata2011年收购Asterdata 并推出SQL MapreduceIBM2010年收购NetezzaSAP2011年收购Sybase 开源解决方案 开源组织Apache在2008年将Hadoop列为顶级项目2010年HBase自Hadoop上诞生开源组织GNU2010年发布MongodbVmware2010年提供开源产品RedisTwitter2011年

5、提供开源产品Storm 商业企业和开源组织都纷纷推出各种大数据解决方案 这些方案既存在相同点 也各有侧重 目前尚无统一的行业技术标准或技术领域细分规则 互联网企业IT实力强且海量数据处理需求最为迫切 是大数据发起者 倡导者 开发者和最终使用者 大数据应用场景十分清晰Google研发Bigtable并自行使用Yahoo发起Hadoop Hbase开源并自用 FACEBOOK 百度 淘宝等均使用Twitter开发Storm自用并提供开源 传统企业IT能力有限 数据处理工作主要依赖于系统集成商 重点在应用实现 IT技术路线上以跟随成熟技术 含开源技术 为主目前还是以数据库 数据仓库技术为主 对大数据

6、技术仍处于认知或小范围摸索实验阶段 应用场景仍在分析梳理中 互联网企业 传统企业 大数据正成为IT行业全新的制高点 各企业和组织纷纷助推大数据的发展 相关技术呈现百花齐放局面 并在互联网应用领域崭露头角 大数据的特征与科学内涵 2020 4 7 大数据的科学内涵 继互联网之后 能够对企业产生最大影响力的应该就是大数据 bigdata 2008年9月 自然 网络版 大数据不仅仅是 大 比大更重要的是数据的复杂性 有时甚至大数据中的小数据如一条微博就具有颠覆性的价值 多大 TB级PB级ZB级 2020 4 7 大数据的科学内涵 狭义的 大数据 定义 通常具有数十到数千TB的巨大规模 包括各种类型的

7、非结构性数据 仅以几秒到几小时为单位进行产生 流动 消费 应用 的循环过程 用传统方式很难管理和分析的数据集合 广义的大数据 狭义大数据 分析人力 资源和组织 数据管理 分析相关技术 广义的 大数据 定义 很难用传统方式进行管理和分析的数据集合 以及为了管理和分析这些数据所必要的人力资源和组织以及相关技术 2020 4 7 大数据技术的特征 4V 大数据技术涵盖范围非常广 从获取到存储 管理的部分注重数据本身 属于科学技术的范畴 但是从分析到应用的部分注重如何解决多样而复杂的问题 因此涉及的知识和领域更加分散 总的来看大数据技术具有 4V 的特征 2020 4 7 大数据技术的新模式 基于SQ

8、L语言 面对OLAP的传统行和列 不基于SQL或map reduce的 由谷歌率先发起 数据流 基于运行商数据直接生成任意图形 数据入口 汇聚 数据平台 分析 传统交付模式 单片或基于设备的解决方案 云 能够充分利用物理设施的弹性 以实现处理快速增长数据的能力 数据库将演变成一个虚拟的 基于云计算 超级可扩展的分布式平台 ForresteranalystJimKobielus 2020 4 7 云计算的概念与内涵 云计算概念由Google提出 是一种通过网络 云计算平台 按用户需求组织网上资源 云 为用户提供各类计算服务的新计算模式 不需要硬件和各种软件 通过internet网获取服务即可 传

9、统模式的信息化 云计算模式 当企业规模扩大时需要对各种软件 硬件进行升级维护 并且进行人员培训扩充 2020 4 7 云计算的概念与内涵 云计算是一种资源交付和使用模式 指通过网络获得应用所需的资源 硬件 平台 软件 提供资源的网络被称为 云 云 中的资源在使用者看来是可以无限扩展的 并且可以随时获取 这种特性经常被比喻为像水电一样使用硬件资源 按需购买和使用 2020 4 7 云计算的基础 数据 Google数据中心 比利时的圣吉兰 SaintGhislain 数据中心完全依靠数据中心外面的空气来冷却系统 Google数据中心以集装箱为单位 每个集装箱有1160台服务器 每个数据中心有众多集

10、装箱 Google一次搜索查询的能耗能点亮100瓦的灯泡11秒钟 微软在美国芝加哥的数据中心 总面积为70万平方英尺 即使只启用半数服务器 能耗也达到30兆瓦 Microsoft数据中心 2020 4 7 云计算的关键技术 编程模型 海量数据分布存储技术 MapReduce是Google开发的java Python C 编程模型 它是一种简化的分布式编程模型和高效的任务调度模型 用于大规模数据集 大于1TB 的并行运算 GFS即Google文件系统 GoogleFileSystem 是一个可扩展的分布式文件系统 用于大型的 分布式的 对大量数据进行访问的应用 海量数据管理技术 BT BigTa

11、ble 数据管理技术是建立在GFS Scheduler LockService和MapReduce之上的大型的分布式数据库 它把所有数据都作为对象来处理 形成一个巨大的表格 用来分布存储大规模结构化数据 虚拟化技术 虚拟化技术根据对象可分成存储虚拟化 计算虚拟化 网络虚拟化等 计算虚拟化又分为系统级虚拟化 应用级虚拟化和桌面虚拟化 云计算平台管理技术 云计算系统的平台管理技术能够使大量的服务器协同工作 方便的进行业务部署和开通 快速发现和恢复系统故障 通过自动化 智能化的手段实现大规模系统的可靠运营 2020 4 7 云计算的体系结构 SaaS Software as a service 具有

12、互联网特性 多租户特性和服务特性 是基于互联网提供软件服务的软件应用模式 PaaS Platform as a service 是一种分布式平台服务 厂商提供开发环境 服务器平台 硬件资源等服务给客户 用户在其平台基础上定制开发自己的应用程序并通过其服务器和互联网传递给其他客户 IssS Infrastructure as a service 是把厂商的由多台服务器组成的 云端 基础设施 作为服务提供给客户 它将内存 I O设备 存储和计算能力整合成一个虚拟的资源池为整个业界提供所需要的存储资源和虚拟化服务器 2020 4 7 大数据与云计算的联系与区别 云计算是 大脑 解决信息的存储和处理问

13、题 它在云端服务器上非常的强悍 同时每天在更新很多新的产品模式和服务方式 而大数据是 灵魂 是信息发掘和知识创作的源泉 它是由数据丰富度来决定的 联系 云计算和大数据是一个硬币的两面 云计算是大数据的IT基础 而大数据是云计算的一个杀手级应用 一方面 云计算是大数据成长的驱动力 另一方面 由于数据越来越多 越来越复杂 越来越实时 这就更加需要云计算去处理 区别 云计算改变了IT 而大数据则改变了业务 大数据和云计算的目标受众不同 云计算是卖给CIO的技术和产品 是一个进阶的IT解决方案 而大数据是卖给CEO 卖给业务层的产品 大数据的决策者是业务层 2020 4 7 大数据与云计算技术的发展趋

14、势 发展趋势1 从单一型数据到多样化资源 目前 大数据和云计算相关的技术和工具已经非常多 在未来还会继续出现新的技术和工具 在大数据生命周期的各个环节 不论是数据的采集 存储 管理 还是分析 可视化以及应用都将出现创新 传统做法 面向文档数据库 关系数据库 视频 图像 音频文件 复杂数据放在关系数据库 低价值大文件放在文件系统 彼此分离存储和访问 数据库的记录就是文档 涵盖各种数据类型 数据统一管理和访问数据库可分布式部署 对外提供统一视图 技术特点 分布式存储所有数据保存在文件中文件中所有数据基于结构化描述语言组织 支持各种数据类型 包括大型对象 视频 音频等 支持多种类似SQL的数据检索方

15、式适用场景网站数据存储大尺寸低价值数据多类型混杂的数据存储 2020 4 7 大数据与云计算技术的发展趋势 发展趋势2 从低价值分析到智能化挖掘 数据分析是大数据和云计算的核心 未来大数据和云计算将充分利用机器学习 数据挖掘 模式识别 自然语言理解等人工智能基础技术 进一步实现数据分析的智能化 元数据节点Namenode 文件名 文件块 文件块所在数据节点 文件元数据 1 2 3 数据节点Datanode 数据节点Datanode 数据节点Datanode 数据节点Datanode 先读取文件元数据 知道文件在哪 后读取各个文件块 管理文件分布存储 上层应用 YahooAmazonFacebo

16、okEbay淘宝百度中国移动飞信中国移动大云 行业应用 2020 4 7 大数据与云计算技术的发展趋势 发展趋势3 从批量化处理到实时性计算 目前大数据和云计算系统大多采用的是批量化的处理方式 但大数据和云计算的应用突出强调数据处理的实时性 因此在未来几年内 内存计算 流处理 连续计算等实时计算技术将迅速发展 用于实时性分析的平台将广泛应用 TaskTracker MapTask TaskTracker MapTask TaskTracker MapTask TaskTracker ReduceTask TaskTracker ReduceTask 中间结果 中间结果 中间结果 输出数据 输出数据 JobTracker 用户程序 JobClient 提交作业 任务调度 任务调度 状态监控 状态监控 MapReduce 2020 4 7 大数据与云计算技术的发展趋势 发展趋势4 从被动型服务到主动型推送 云计算为大数据提供了分布式的计算方法与可以弹性扩展 相对便宜的存储空间和计算资源 云计算IT资源庞大 分布广泛 可以为异构系统较多的企业及时准确地推送所需服务 2020 4 7 云制造提

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号