云计算大数据关键技术与应用

上传人:桔**** 文档编号:586538297 上传时间:2024-09-04 格式:PPT 页数:62 大小:6.38MB
返回 下载 相关 举报
云计算大数据关键技术与应用_第1页
第1页 / 共62页
云计算大数据关键技术与应用_第2页
第2页 / 共62页
云计算大数据关键技术与应用_第3页
第3页 / 共62页
云计算大数据关键技术与应用_第4页
第4页 / 共62页
云计算大数据关键技术与应用_第5页
第5页 / 共62页
点击查看更多>>
资源描述

《云计算大数据关键技术与应用》由会员分享,可在线阅读,更多相关《云计算大数据关键技术与应用(62页珍藏版)》请在金锄头文库上搜索。

1、云计算&大数据关键技术与应用目目录录云云计算算&大数据技大数据技术架构架构虚拟化技术虚拟化技术12分布式数据处理技术分布式数据处理技术海量数据存储技术海量数据存储技术34大数据技术应用实例大数据技术应用实例5云计算运营两大阵营云云计算算产品的生品的生态系系统4基础硬件层虚拟化软件存储软件Swift网络软件虚拟化和基础软件层Glance基础架构及服务层应用层商用软件开源软件虚拟桌面海量数据处理大数据分析面临的主要技术问题需要提供一个高效稳定的存储和计算引擎如何支撑1万、10万台以上的机群规模?多集群架构,运维和管理系统如何在一个平台上支持多个组织的多个用户进行开发?多租户支持,安全隔离,权限控制

2、如何了解业务运行状态?元数据管理,指标系统如何管理不同种类的任务?服务化,统一计算入口,可度量和控制的计算资源快速查询,精准搜索,智能分析云计算技术用于处理大数据High performance 高并发读写高并发、实时动态获取和更新数据Huge Storage 海量数据的高效率存储访问和智能分析类似SNS网站,海量用户信息的高效率实时存储和查询High Scalability & High Availability 高可扩展性和高可用性需要拥有快速横向扩展能力、提供7*24小时不间断服务阿里大数据状况淘宝主站(2011年):30亿店铺、宝贝浏览10亿计的在线宝贝数千万量级交易笔数数据产品(20

3、11年):50G统计汇总结果千万量级数据查询请求平均20.8ms的响应时间数据来源:阿里相关技术介绍ppt阿里技术架构总览数据来源:阿里相关技术介绍ppt腾讯大数据状况数据来源:2012-12-1赵伟HIVE在腾讯分布式数据仓库实践分享腾讯技术架构数据来源:2012-12-1赵伟HIVE在腾讯分布式数据仓库实践分享百度大数据状况数据来源:2011年百度云计算总工程师林仕鼎讲座百度云计算总体介绍数据来源:2012.10百度杨毅讲座百度的下一代计算系统百度技术架构数据来源:2011年百度云计算总工程师林仕鼎讲座百度云计算总体介绍海量结构化数据存储海量结构化数据存储系统系统(SQL)(SQL)分布式

4、文件系统分布式文件系统海量海量非非结构化数据存储系统结构化数据存储系统(SQL)(SQL)机器学习机器学习大数据应用大数据应用机器学习机器学习分布式文分布式文件系统件系统海量数据存储海量数据存储大规模计算大规模计算智能分析智能分析大数据技术架构-模型分布式并行计算系统分布式并行计算系统数据挖掘数据挖掘语义搜索语义搜索HIVEHIVEPig!Pig!ZooZooKeeperKeeper分布式文分布式文分布式文分布式文件系统件系统件系统件系统海量数据海量数据海量数据海量数据存储存储存储存储大规模计算大规模计算大规模计算大规模计算智能分析智能分析智能分析智能分析算法算法算法算法大数据技术架构-典型开

5、源实现目目录录云计算云计算& &大数据技术架构大数据技术架构虚虚拟化技化技术12分布式数据处理技术分布式数据处理技术海量数据存储技术海量数据存储技术34大数据技术应用实例大数据技术应用实例大数据技术应用实例大数据技术应用实例56虚拟化技术v通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式v虚拟化软件实现对硬件的抽象,资源的分配、调度和管理,虚拟机与宿主操作系统及多个虚拟机间的隔离等功能,目前典型的实现(基本成为事实标准)有:CitrixXenVMwareESXServerMicrosoftHype-VRed

6、hatKVM网络虚拟化存储虚拟化桌面虚拟化计算虚拟化计算虚拟化技术Container1Container2Container3Guest OSGuest OSGuest OSVM 1VM 2VM 3虚拟硬件虚拟硬件虚拟硬件Virtual Machine MonitorHypervisor or Standard Host OSHardwareStandard Host OSHardware操作系统虚拟化层HypervisorOS Virtualization硬件虚拟化(Hypervisors)虚拟硬件访问创建多个虚拟硬件实例宿主操作系统及每个Guest必须为完整操作系统VMwareESXi,M

7、icrosoftHyper-V操作系统虚拟化(Containers)虚拟操作系统访问创建多个虚拟操作系统实例物理服务器拥有单个、标准的OS内核VMwareworkstation,SunSolarisContainers,OpenVZ网络虚拟化:软件定义网络SDN(SoftwareDefinedNetwork)pSDN是一种新兴的控制与转发分离并直接可编程的网络架构p传统网络设备紧耦合的网络架构被拆分成应用、控制、转发三层分离的架构。控制功能被转移到了服务器上,上层应用、底层转发设施被抽象成多了逻辑实体网络虚拟化-VxLan实现虚拟机的跨网络迁移n虚拟可扩展VLAN(VirtualExtensi

8、bleVLAN,VXLAN)标准将创建一个逻辑网络(或扩展VLAN),支持地理分散的数据中心之间实现远距离虚拟机(VM)迁移。VXLAN最终会实现多租户云网络所需要的远距离分割支持n思科与VMware已经合作将VXLAN标准整合到产品中,但是这个由思科、VMware、Arista网络、Broadcom公司、Citrix系统和红帽等公司共同制定的VXLAN草案仍然有待互联网工程工作小组(IETF)标准化。云计算基础设施管理技术v云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。v云计算系统的平台管理技术

9、能够使大量的服务器协同工作,方便的进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营v常用的开源VIMOpenStackCloudStackOpenNebulaEucalyptusC(Cloudstack)DeltaCloudCleverOpenStack简介vOpenStack是由Rackspace和NASA共同开发的云计算平台,帮助服务商和企业内部实现类似于AmazonEC2和S3的云基础架构服务(IaaS)。v用Python语言编写v大型用户:vNASAv加拿大半官方机构CANARIE网络的DAIR项目vRackspaceCloudv惠普云(使用

10、UbuntuLinux)vMercadoLibre的IT基础设施云,现以Openstack管理超过60000台服务器OpenStack社区目目录录云计算云计算& &大数据技术架构大数据技术架构虚拟化技术虚拟化技术12分布式数据分布式数据处理技理技术海量数据存储技术海量数据存储技术34大数据技术应用实例大数据技术应用实例5Google分布式处理架构GoogleGoogle云云云云计计算算算算应应用用用用BigTableBigTableGFSGFSMapReduceMapReduceChubbyChubbyv组件调用关系分析分布式文件系统分布式计算模型分布式文件系统分布式文件系统-Google-G

11、oogle文件系统文件系统(GFS)(GFS)Google48%MSN19%Yahoo33%客户端客户端客户端互为备份管理节点GFS主节点GFS主节点C0C1C2C5数据结点1C0C2C5数据结点NC1C5数据结点2客户端客户端客户端客户端客户端客户端C1分布式文件系统分布式文件系统- - HDFSv基本结构采用主从架构,由一个Namenode和若干个Datanode组成Namenode:负责管理名字空间与客户端访问Datanode:管理附带的存储,存储文件的block一个文件分成多个block,Block是HDFS最小存储与分配单位,分布存储,典型块大小为64MB或128MB一个block被

12、复制存放于多个datanodevHDFS在Yahoo安装了14PB的在线磁盘分布式文件系统分布式文件系统- - GlusterFS分布式文件系统分布式文件系统- - LustrevMDS: Metadata Server, 元数据管理器,管理名字空间和文件对象映射元数据管理器,管理名字空间和文件对象映射vOSS:Object Storage Server,I/O服务器服务器vMDT:Metadata Target, MDS的本地磁盘存储的本地磁盘存储vOST:Object Storage Target,OSS的本地磁盘存储的本地磁盘存储OSTMDT分布式文件系统分布式文件系统- -写入写入性能

13、比较性能比较来源:中科院深圳先进技术研究院 熊文,喻之斌,须成忠的论文几个常见分布式文件系统特征分析和性能对比(集成技术2012年11月)分布式文件系统分布式文件系统- -读取性能比较读取性能比较来源:中科院深圳先进技术研究院 熊文,喻之斌,须成忠的论文几个常见分布式文件系统特征分析和性能对比(集成技术2012年11月)分布式计算模型-概述待处理数据量巨大短时间处理如何进行并行分布式计算?如何分发待处理数据?如何处理分布式计算中的错误?MapReduce模型Google 公司的核心计算模型分布式计算模型-MapReducep一个软件架构,是一种处理海量数据的并行编程模式,用于大规模数据集(通常

14、大于100TB)的并行运算p适合要求:待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。pMapReduce实现了Map和Reduce两个功能Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集Reduce对结果集进行分类和归纳Map()和Reduce()两个函数可能会并行运行计算流程分布式计算模型-MapReducep提供数据的存储访问、数据块划分、计算节点调度管理、数据通信、结果收集、容错处理、负载均衡、性能优化等pJobTracker:主结点p接受用户提交的MRjobp分派map任务和reduce任务p监管tasks和tasktrac

15、kers,重新执行失效任务p一般情况应该把JobTracker部署在单独的机器上pTaskTracker:任务的调度p多个运行于多个节点的slaver服务,一个Datanode节点一个。p按照jobtracker的要求执行map或者reduce任务p管理存储,传输中间结果分布式计算模型-MapReduce任务执行状态更新Shuffle & Sortp单词记数问题(WordCount)(Hadoop自带例子)p给定一个巨大的文本(如1TB),如何计算单词出现的数目?MapReduce示例pStep1:自动对文本进行分割MapReduce示例pStep2:在分割之后的每一对进行用户定义的Map进行

16、处理,再生成新的对MapReduce示例pMap类:编程实现Hadoop Mapper接口的Map方法pStep3:对输出的结果集归拢、排序(系统自动完成)MapReduce示例pStep4:通过Reduce操作生成最后结果MapReduce示例pReduce类:编程实现Hadoop Reduce接口的Reduce方法目目录录云计算云计算& &大数据技术架构大数据技术架构虚拟化技术虚拟化技术12分布式数据处理技术分布式数据处理技术海量数据存海量数据存储技技术34大数据技术应用实例大数据技术应用实例51. Volume2. Variety3. value4. Velocity结构化数据、半结构化

17、数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求沙里淘金,价值密度低以视频为例,一部一小时的视频,在连续不间断监控过程中,可能有用的数据仅仅只有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”是目前大数据汹涌背景下亟待解决的难题实时获取需要的信息大数据区分于传统数据最显著的特征。如今已是ZB时代,在如此海量的数据面前,处理数据的效率就是企业的生命无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合大数据的特点数据量巨大全球在2010年正式进入ZB时代,IDC预计到2020年,全球将总共拥有35ZB的数据量1PB数据

18、相当于50%的全美学术研究图书馆藏书资讯内容。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。存储原理v数据库存储数据库以行、列的二维表的形式存储数据以一维字符串的方式存储到磁盘v行式存储按行来序列化并追加到磁盘v列式存储按行来序列化并追加到磁盘列族CAP理论分布式数据系统的CAP原理的三要素:一致性(Consistency)可用性(Availability)分区容忍性(Partitiontolerance)CAP原理:在分布式系统中,这三个要素最多只能同时实现两点,不可能三者兼顾对于分布式数据系统,分区容忍性是基本要求对于大多数w

19、eb应用,牺牲一致性而换取高可用性,是目前多数分布式数据库产品的方向。NoSQL的两个核心模型Google的BigTableBigTable提出了一种很有趣的数据模型,它将各列数据进行排序存储。数据值按范围分布在多台机器,数据更新操作有严格的一致性保证。Amazon的DynamoDynamo使用的是另外一种分布式模型。Dynamo的模型更简单,它将数据按key进行hash存储。其数据分片模型有比较强的容灾性,因此它实现的是相对松散的弱一致性:最终一致性。NoSQL技术分类vKey-value一个Key对应一个Value,能提供非常快的查询速度、大的数据存放量和高并发操作,非常适合通过主键对数据

20、进行查询和修改等操作RedisBerkeleyDBKyotoCabinet/Tycoonv列式存储按列存储数据,最大的特点是方便存储结构化和半结构化数据,方便做数据压缩,对针对某一列或者某几列的查询有非常大的IO优势HbaseCassandrav文档结构结构和Key-value非常相似,也是一个Key对应一个Value,但是这个Value主要以JSON或者XML等格式的文档来进行存储,是有语义的。可以对某些字段建立索引,实现关系数据库的某些功能。MongoDBCouchDBv图式存储以图论为基础Neo4J简介Bigtable是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布

21、在数千台普通服务器上的PB级的数据。Google的很多项目使用Bigtable存储数据,包括Web索引、GoogleEarth、GoogleFinance等。数据模型Bigtable是一个稀疏的、分布式的、持久化存储的多维度排序Map。Map的索引是行关键字、列关键字以及时间戳;Map中的每个value都是一个未经解析的byte数组NoSQLBigTable特点适合大规模海量数据,PB级数据;分布式、并发数据处理,效率极高;易于扩展,支持动态伸缩;适用于廉价设备;适合于读操作,不适合写操作;不适用于传统关系数据库;简介HadoopDatabase,HBase是GoogleBigtable的开源

22、实现,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。数据模型类似GoogleBigtable利用GFS作为其文件存储系统,HBase利用HadoopHDFS作为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中的海量数据;GoogleBigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应。NoSQLHbasen底层数据存储基于HDFSn高可用,高性能n列存储,多版本n百亿行百万列上

23、万个版简介:一个开源的使用C语言编写、支持网络、可基于内存也可持久化的key-value存储系统,仅有一万行代码。从2010年3月15日起,Redis的开发工作由VMware主持。NoSQLRedisv速度快:C语言、数据加载到内存v持久化:数据保存到内存的同时,还可以同步到磁盘上v数据结构:支持五种数据结构v支持多语言:诸如C,PHP,java,Perl,Ruby,Python等v主从复制:支持简单的主从复制,官方提供数据,Slave在21秒完成了对Amazon网站10Gkeyset的复制v相比memcached的优势:value类型更丰富数据操作方法更多可将内存数据持久化n最初由Faceb

24、ook开发,用于储存收件箱等简单格式数据n集GoogleBigTable的数据模型与AmazonDynamo的完全分布式的架构于一身nFacebook于2008将Cassandra开源,此后,由于Cassandra良好的可扩放性,被Digg、Twitter等知名Web2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案NoSQLCassandran特点模式灵活:使用Cassandra,像文档存储,你不必提前解决记录中的字段。你可以在系统运行时随意的添加或移除字段。这是一个惊人的效率提升,特别是在大型部署上。真正的可扩展性:Cassandra是纯粹意义上的水平扩展。为给集群添加更多容量,可

25、以指向另一台电脑。你不必重启任何进程,改变应用查询,或手动迁移任何数据。多数据中心识别:你可以调整你的节点布局来避免某一个数据中心起火,一个备用的数据中心将至少有每条记录的完全复制。n介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像关系数据库的n支持的数据结构非常松散,是类似json的bjson格式,可以存储比较复杂的数据类型n支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。NoSQLMongoDBn主要特点文档型:存储在集合中的文档,被存储为键-值对的形式。键用于唯一标识一个文档,为字

26、符串类型,而值则可以是各种复杂的文件类型。面向集合存储:易存储对象类型的数据,包括文档内嵌对象及数组。模式自由:无需知道存储数据的任何结构定义,支持动态查询、完全索引,可轻易查询文档中内嵌的对象和数组高效的数据存储:支持二进制数据及大型对象支持复制和故障恢复:提供Master-Master、Master-Slave模式的数据复制及服务器之间的数据复制自动分片:以支持云级别的伸缩性,支持水平的数据库集群,可动态添加额外的服务器n不适用场景要求高度事务性的系统传统的商业智能应用复杂的跨文档(表)级联查询nNeo4j提供了大规模可扩展性,在一台机器上可以处理数十亿节点/关系/属性的图,可以扩展到多台

27、机器并行运行。n相对于关系数据库来说,图数据库善于处理大量复杂、互连接、低结构化的数据,这些数据变化迅速,需要频繁的查询在关系数据库中,这些查询会导致大量的表连接,因此会产生性能上的问题。nNeo4j重点解决了拥有大量连接的传统RDBMS在查询时出现的性能衰退问题。n通过围绕图进行数据建模,Neo4j会以相同的速度遍历节点与边,其遍历速度与构成图的数据量没有任何关系。nNeo4j还提供了非常快的图算法、推荐系统和OLAP风格的分析,这在目前的RDBMS系统中都没有实现。NoSQLNeo4JSQLHIVEHIVE的不足Oracle的大数据解决方案Facebook的处理模式目目录录云计算云计算&

28、&大数据技术架构大数据技术架构虚拟化技术虚拟化技术12分布式数据处理技术分布式数据处理技术海量数据存储技术海量数据存储技术34大数据技术应用实例大数据技术应用实例5应用实例1:互联网行为分析平台应用实例2:海量小图片管理需求l上亿个影像图文件l每个影像图文件大小约1020Kl须集中管理l需满足图档的实时调阅与查询现状l以SANStorage来储存与管理所有的影像图文件l每个影像文件以档案目录方式来管理l以数据库来存放每个图像图文件之特征值(meta-data)与文件路径,供使用者查询与搜索SANStorageDB应用程序应用程序应用程序应用程序快速迭代的开发模式分布式系统测试资料参考-阿里技术嘉年华资料参考-腾讯大讲堂谢谢!谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号