计算机海量信息存储教学讲义-华中科技大学

上传人:策**** 文档编号:1012508 上传时间:2017-05-25 格式:PPT 页数:49 大小:2.65MB
返回 下载 相关 举报
计算机海量信息存储教学讲义-华中科技大学_第1页
第1页 / 共49页
计算机海量信息存储教学讲义-华中科技大学_第2页
第2页 / 共49页
计算机海量信息存储教学讲义-华中科技大学_第3页
第3页 / 共49页
计算机海量信息存储教学讲义-华中科技大学_第4页
第4页 / 共49页
计算机海量信息存储教学讲义-华中科技大学_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《计算机海量信息存储教学讲义-华中科技大学》由会员分享,可在线阅读,更多相关《计算机海量信息存储教学讲义-华中科技大学(49页珍藏版)》请在金锄头文库上搜索。

1、海量信息存储,华中科技大学计算机学院,2012.06,Based on the course slides of 物联网导论,刘云浩编著,科学出版社,内容提要,物联背景下如何适应海量信息存储的需求呢?随着物联网的发展,数据中心将成为解决海量数据存储的主要手段。本章将介绍典型的网络存储体系结构以及数据中心的基本概念。,第10章介绍了数据库管理系统的基本概念数据库模型的发展关系数据库的基本概念利用关系代数写查询表达式物联网数据管理的特点本章重点介绍三种基本的网络存储体系结构,并以Google数据中心为例,介绍大规模数据中心的相关技术,最后简要开源分布式计算框架Hadoop。,内容回顾,11.1 物

2、联网对海量信息存储的需求11.2 网络存储体系结构11.3 数据中心信息存储的发展历程如何?物联网对海量信息存储的需求促使了哪些技术的发展?,本章内容,数据存储的发展历史,甲骨文纸质书籍数字化存储,物联网对海量信息存储的需求,全球信息总量迅猛增长2007年产生的数据量为281EB ( 1EB=10亿GB )物联网中对象的数量将庞大到以百亿为单位物联网中的对象积极参与业务流程的需求高强度计算需求数据的持续在线可获取特性导致了网络化存储和大型数据中心的诞生,11.1 物联网对海量信息存储的需求11.2 网络存储体系结构11.3 数据中心三种基本的网络存储体系结构:直接附加存储,网络附加存储,存储区

3、域网络,各有什么特点?,本章内容,直接附加存储,直接附加存储(Direct-Attached Storage, DAS)将存储系统通过缆线直接与服务器或工作站相连一般包括多个硬盘驱动器,与主机总线适配器通过电缆或光纤在存储设备和主机总线适配器之间不存在其他网络设备实现了计算机内存储到存储子系统的跨越,直接附加存储一个计算机系统也由各有专长的厂商所领导,可大体分为:处理器、操作系统、网络、资源共享、数据库等等不同的水平领域从封闭走向开放的代表是直接连接存储系统的出现和应用,直接附加存储(Direct Attached Storage,DAS)是指将外部存储设备通过连接电缆直接连接到服务器上外部数

4、据存储设备采用SCSI、SATA、FC(Fibre Channel)等技术,通过数据连接电缆直接挂接在服务器的内部控制器上,特点DAS的这种直连方式,能够解决单台服务器的存储空间扩展、高性能传输需求单台个DAS存储介质可以被多台服务器所共享DAS产品目前还在广泛应用,尤其是一些中小型企业常使用DAS来存储数据,问题DAS拥有较长的使用历史,但是随着数据量及访问人数的不断增多,DAS在备份、恢复、扩展、灾备等方面存在的问题变得日益突出DAS依赖服务器主机操作系统进行数据的I/O读取和存储维护管理,数据备份和恢复要求占用服务器主机的CPU、I/O等资源DAS的数据量越大,备份和恢复的时间就越长,对

5、服务器硬件的依赖性和影响就越大,网络附加存储,网络附加存储(Network Attached Storage, NAS)文件级的计算机数据存储架构计算机连接到一个仅为其它设备提供基于文件级数据存储服务的网络NAS与DAS的区别DAS是一种对已有服务器的简单扩展,并没有真正实现网络互联。NAS则是将网络作为存储实体,更容易实现文件级别的共享。NAS性能上比DAS有所增强,与DAS相比,NAS设备的可靠性和稳定性都要高,特别是NAS的文件管理系统得到了优化,其价格也比DAS低廉与DAS相比,NAS的最大不同是外部存储介质直接连接到网络上,特点NAS作为一个网络附加存储设备,采用了目前较为流行的嵌入

6、式技术。使得NAS具有无人值守、高度智能、性能稳定等特点NAS设备内置优化的独立存储操作系统,可以更加有效地利用系统总线资源,更好地支持I/O存储同时,NAS设备一般集成本地的备份软件,可以不经过服务器便将NAS设备中的重要数据进行本地备份而且NAS设备提供硬盘RAID、冗余的电源和风扇以及冗余的控制器,可以保证NAS的稳定性主要应用于中小型网络,安装、调试、使用和管理非常简单。RJ-45或光纤接口数据从服务器分离,减少了数据管理上的许多问题有自己专用的管理软件,通过管理软件可以方便地实现设备的配置支持UNIX、Windows、NetWare、Macintosh等多种操作系统,特点,由于大量的

7、数据访问由NAS设备完成,服务器减少了数据的I/O操作,提高了服务器的性能NAS设备独立于服务器。如果一个服务器出现故障,其他服务器也可以访问存储设备中的数据由于NAS设备直接连接在网络上,而且可以通过管理软件进行配置和管理,所以便于NAS设备的扩展和管理可支持UNIX、Windows、NetWare、Macintosh等多种应用平台,与DAS相比,NAS主有存在以下的优点,存储区域网络,存储区域网络 (Storage Area Network, SAN)通过网络方式连接存储设备和应用服务器的存储架构由服务器、存储设备和SAN连接设备组成SAN的特点存储共享支持服务器从SAN直接启动,SAN是

8、存储系统的最新模式SAN专注于企业级存储的特有问题目前,企业存储方案所遇到的两个问题是:数据与应用系统紧密结合所产生的结构性限制目前广泛使用的小型计算机系统接口(SCSI)标准的限制在SAN系统中,存储设备通过专用交换机与多台服务器相连提供了多主机连接,允许任何服务器连接到任何存储设备,不管数据置放在那里,服务器都可直接访问所需的数据同时,随着存储容量的增长,SAN也允许企业独立地增加它们的存储设备,不同于普通的网络交换机,SAN是基于光纤通道(Fiber Channel,FC)技术的高速传输网络。FC是ANSI为网络和通道I/O接口建立的一个标准,支持SCSI、IP、ATM等多种高级协议FC

9、的最大特性是将网络和设备的通讯协议与传输物理介质隔离开,这样多种协议可在同一个物理连接上同时传送使高性能存储设备与宽带网络使用单一的I/O接口,使得系统的成本和复杂程度大大降低光纤通道支持多种拓扑结构,主要有点到点(Links)、仲裁环(FC-AL)、交换式网络结构(FC-XS)等点对点方式:DAS应用FC-AL:磁盘阵列FC-XS交换式:SAN,因为采用了FC技术,SAN具有更高的带宽SAN结构具有NAS的所有优点,在提高了服务器性能的同时,便于对数据的管理,也便于系统的扩充,同时支持多种应用平台但与NAS不同的是,在SAN中服务器与存储设备之间的数据交换是通过SAN网络进行,不会消耗应用网

10、络的带宽资源,所以SAN主要应用于大型网络随着FC-SW标准的确立,2Gbit/s光纤通道标准下的各种SAN设备已解决了互操作性问题,这已从成本和技术上解决了SAN的应用瓶颈,三种网络存储结构的比较,三种网络存储结构的比较,DAS管理容易,结构简单;集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”。NAS网络的存储实体,容易实现文件级别共享;性能严重依赖于网络流量,用户数过多,读写过频繁时性能受限。SAN存储管理简化,存储容量利用率提高;无直接文件级别的访问能力,但可在SAN基础上建立文件系统。,11.1 物联网对海量信息存储的需求11.2 网络

11、存储体系结构11.3 数据中心什么是数据中心?典型的数据中心有哪些?数据中心的研究热点是什么?,本章内容,什么是数据中心?,维基百科:“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。”Google:“多功能的建筑物,能容纳多个服务器以及通信设备。这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护。”,数据中心的起源与发展,大型机,微型机,大规模数据中心(Mega Data Center),数据中心的起源与发展,大规模数据中心已经得到推广,

12、数据中心标准,数据中心建设者面对的难题如何规划一个新的数据中心?怎样对数据中心进行升级?数据中心的标准对相关经验进行了总结ANSI/TIA/EIA-942(简称TIA-942):数据中心标准电信产业协会(TIA)提出美国国家标准学会(ANSI)批准,数据中心标准:TIA-942,选址:需要考虑多方面因素建设和运营成本应用需求政策优惠布局:按功能区域划分,功能区域组成,数据中心标准:TIA-942(续),TIA-942还对缆线系统,可靠性分级,能源系统和降温系统等做了规定。,缆线系统规格如何放置缆线,能源系统外部电力供应电池组发电机,降温系统降温设备架空地板冷通道与热通道,典型数据中心:Goog

13、le 数据中心,简介全球共建有近40个大规模数据中心单个数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的用电量独特的硬件设备:定制的以太网交换机、能源系统等自行研发的软件技术:Google File System、MapReduce、BigTable等,Google File System,GFS的设计观念组件失效不再被认为是意外,而是被看做正常的现象GFS的文件非常巨大对文件的操作具有特定的模式应用程序和文件系统API的协同设计提高了整个系统的灵活性,Google File System,GFS的设计架构,一个GFS集群包含一个主服务器和多个块服务器,并被多个客户端访问。,文件分成

14、固定大小的“块”。每个块在创建时都由主服务器分配一个固定不变的64位句柄唯一标识。块服务器把块作为Linux文件存储在本地磁盘上,并根据指定的块句柄和字节范围对数据块进行读写操作。,Google File System,GFS的设计架构(续),主服务器维护所有文件系统的元数据,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。此外,主服务器还控制其它系统级的活动。主服务器周期性地与块服务器通信,以下达指令和收集状态。GFS客户端代码被嵌入到每个应用中。它实现了文件系统API,实现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现元数据操作,但所有的数据操

15、作都通过直接与块服务器交互而完成。,MapReduce,MapReduce是一种针对超大规模数据集的编程模型和系统用MapReduce开发出的程序可在大量商用计算机集群上并行执行、处理计算机的失效以及调度计算机间的通信MapReduce的基本思想用户写的两个程序:Map和Reduce一个在计算机集群上执行多个程序实例的框架,MapReduce,MapReduce程序的执行过程,BigTable,BigTable是一种用来在海量数据规模下(例如包含以PB为单位的数据量和数千台廉价计算机的应用)管理结构化数据的分布式存储系统。应用Google地球网页索引RSS阅读器,BigTable,每个BigT

16、able都是一个稀疏的、分布式的多维有序图,按行键值、列键值和时间戳建立索引,典型数据中心:Hadoop,什么是Hadoop?Apache开源组织的一个分布式计算开源框架用于在大型集群的廉价服务器设备上运行数据密集型分布式应用程序在早期实际上是Google文件系统与MapReduce分布式计算框架及相关IT基础服务的开源实现Hadoop包括多个子项目HDFS、 MapReduce、 HBase 、Chukwa、Pig、ZooKeeper等,HDFS,Hadoop Distributed File System,数据中心的研究热点,2006年Google在数据中心项目上的花费为19亿美元,而2007年该项支出增加到24亿美元。Google在俄勒冈州的数据中心有近100兆瓦的功率,满负荷运行时消耗的电力基本上和纽卡斯尔(Newcastle)一个城市所有家庭的用电量加起来一样多。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号