云计算存储类型总结.doc

资源描述

《云计算存储类型总结.doc》由会员分享，可在线阅读，更多相关《云计算存储类型总结.doc（9页珍藏版）》请在金锄头文库上搜索。

1、块存储单机块存储首先，一个硬盘是一个块设备。内核检测到硬盘后，在/dev/下会看到/dev/sda/。为了用一个硬盘来得到不同的分区来做不同的事，我们使用fdisk工具得到/dev/sda1、/dev/sda2等。这种方式通过直接写入分区表来规定和切分硬盘，是最死板的分区方式。1. LVM & Device-mapperLVM是一种逻辑卷管理器。通过LVM来对硬盘创建逻辑卷组和得到逻辑卷，要比fdisk方式更加弹性。2. SAN & iSCSI在接触了单机下的逻辑卷管理后，你需要了解SAN，目前主流的企业级存储方式。大部分SAN使用SCSI协议在服务器和存储设备之间传输和沟通，通过在SCSI之

2、上建立不同镜像层，可以实现存储网络的连接。常见的有iSCSI，FCP，Fibre Channel over Ethernet等。SAN通常需要在专用存储设备中建立，而iSCSI是基于TCP/IP的SCSI映射，通过iSCSI协议和Linux iSCSI项目，我们可以在常见的PC机上建立SAN存储。分布式块存储在面对极具弹性的存储需求和性能要求下，单机或者独立的SAN越来越不能满足企业的需要。如同数据库系统一样，块存储在scale up的瓶颈下也面临着scale out的需要。我们可以用以下几个特点来描述分布式块存储系统的概念：1. 分布式块存储可以为任何物理机或者虚拟机提供持久化的块存储设备2

3、. 分布式块存储系统管理块设备的创建、删除和attach/detach3. 分布式块存储支持强大的快照功能，快照可以用来恢复或者创建新的块设备4. 分布式存储系统能够提供不同IO性能要求的块设备可扩展性较差文件存储随着互联网企业的高速发展，这些企业对数据存储的要求越来越高，而且模式各异，如淘宝主站的大量商品图片，其特点是文件较小，但数量巨大；而类似于youtube，优酷这样的视频服务网站，其后台存储着大量的视频文件，尺寸大多在数十兆到数吉字节不等。这些应用场景都是传统文件系统不能解决的。分布式文件系统将数据存储在物理上分散的多个存储节点上，对这些节点的资源进行统一的管理与分配，并向用户提供文件

4、系统访问接口，其主要解决了本地文件系统在文件大小、文件数量、打开文件数等的限制问题。不同的分布式文件系统会对存储的文件有一定的倾向性。常见的分布式文件系统有，GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。对象存储SNIA（网络存储工业协会）定义的对象存储设备是这样的：一种“新的”SCSI存储设备；对象是自完备的，包含元数据、数据和属性；存储设备可以自行决定对象的具体存储位置和数据的分布；存储设备可以对不同的对象提供不同的QoS对象存储设备相对于块设备有更高的“智能”，上层通过对象ID来访问对象，而不了解对象的具

5、体空间分布情况。对象是智能化、封装得更好的块，是“文件”或其他应用级逻辑结构的组成部分，当然，用一个对象存储一个文件也是有可能的，这是上层的事情，至于上层究竟是个文件系统（如EXOFS）还是让应用直接访问对象存储设备就无关紧要了。而对象存储设备本身也有可能是个分布式的系统这就是分布式对象存储系统了，强调的依然是这个封装的概念。对象本身是平等的，也就是说，对象分布在一个平坦的空间中，而非文件系统那样的树状逻辑结构（Namespace）之中，这也就给了我们很大的灵活性如果需要，可以利用对象构建一个文件系统，因为对象本身包含了元数据信息了，甚至包含了更多的属性，因此，文件系统本身的设计就相对简单了；

6、如果不需要，可以直接用平坦的空间，对于海量文件系统来说，似乎没有这个必要；也可以用一部分对象构建一个树状文件系统，甚至可以为同一个对象存储系统组织成不同的树状文件系统结构。用对象替代传统的块的好处在于对象的内容本身来自应用，其具有内在的联系，具有“原子性”，因此可以做到：在存储层进行更智能的空间管理内容相关的数据预取和缓存可靠的多用户共享访问对象级别的安全性同时，对象存储架构还具有更好的可伸缩性。一个对象除了ID和用户数据外，还包含了属主、时间、尺寸、位置等源数据信息，权限等预定义属性，乃至很多自定义属性，对象存储设备中的对象分成了四类：用户对象：应用创建的普通对象集合对象：一组具

7、有共同点的用户对象的集合比如一组mp3等分区对象：容纳用户对象和集合对象的容器，包含了有某些空间管理、安全等方面（比如quota）的共性的对象。根对象：对象存储设备自己对象存储，就是每个数据对应着一个唯一的id，在面向对象存储中，不再有类似文件系统的目录层级结构，完全扁平化存储，即可以根据对象的id直接定位到数据的位置，这一点类似SAN，而每个数据对象即包含元数据又包括存储数据，含有文件的概念，这一点类似NAS。除此之外，用户不必关系数据对象的安全性，数据恢复，自动负载平衡等等问题，这些均由对象存储系统自身完成。而且，面向对象存储还解决了SAN面临的有限扩充和NAS传输性能开销大问题，能够

8、实现海量数据存储。日志详单存储特定环境的存储机制；中国移动私有云规范：结构化数据库与文件系统向结合；NoSQL存储传统“关系型数据库”在应付互联网WEB2.0应用已显示的力不从心，由其是超大规模和高并发的SNS类型的WEB2.0网站。主要需要应对以下三方面难题：1、对数据库高并发读写的要求。2、对数据库高可扩展性和高可用性的要求。3、对海量数据高效存储和访问的要求。NoSQL数据库的类型一、键值（Key-Value）数据库键值数据库就像在传统语言中使用的哈希表。你可以通过key来添加、查询或者删除数据，鉴于使用主键访问，所以会获得不错的性能及扩展性。适用的场景储存用户信息，比如会话、配置文

9、件、参数、购物车等等。这些信息一般都和ID（键）挂钩，这种情景下键值数据库是个很好的选择。不适用场景 1. 取代通过键查询，而是通过值来查询。Key-Value数据库中根本没有通过值查询的途径。2. 需要储存数据之间的关系。在Key-Value数据库中不能通过两个或以上的键来关联数据。3. 事务的支持。在Key-Value数据库中故障产生时不可以进行回滚。二、面向文档（Document-Oriented）数据库面向文档数据库会将数据以文档的形式储存。每个文档都是自包含的数据单元，是一系列数据项的集合。每个数据项都有一个名称与对应的值，值既可以是简单的数据类型，如字符串、数字和日期等；也可以

10、是复杂的类型，如有序列表和关联对象。数据存储的最小单位是文档，同一个表中存储的文档属性可以是不同的，数据可以使用XML、JSON或者JSONB等多种形式存储。适用的场景 1. 日志。企业环境下，每个应用程序都有不同的日志信息。Document-Oriented数据库并没有固定的模式，所以我们可以使用它储存不同的信息。2. 分析。鉴于它的弱模式结构，不改变模式下就可以储存不同的度量方法及添加新的度量。不适用场景在不同的文档上添加事务。Document-Oriented数据库并不支持文档间的事务，如果对这方面有需求则不应该选用这个解决方案。三、列存储（Wide Column Store/Col

11、umn-Family）数据库列存储数据库将数据储存在列族（column family）中，一个列族存储经常被一起查询的相关数据。举个例子，如果我们有一个Person类，我们通常会一起查询他们的姓名和年龄而不是薪资。这种情况下适用的场景 1. 日志。因为我们可以将数据储存在不同的列中，每个应用程序可以将信息写入自己的列族中。2. 博客平台。我们储存每个信息到不同的列族中。举个例子，标签可以储存在一个，类别可以在一个，而文章则在另一个。不适用场景 1. 如果我们需要ACID事务。Vassandra就不支持事务。2. 原型设计。如果我们分析Cassandra的数据结构，我们就会发现结构是基于我们期

12、望的数据查询方式而定。在模型设计之初，我们根本不可能去预测它的查询方式，而一旦查询方式改变，我们就必须重新设计列族。四、图（Graph-Oriented）数据库图数据库允许我们将数据以图的方式储存。实体会被作为顶点，而实体之间的关系则会被作为边。比如我们有三个实体，Steve Jobs、Apple和Next，则会有两个“Founded by”的边将Apple和Next连接到Steve Jobs。适用的场景 1. 在一些关系性强的数据中2. 推荐引擎。如果我们将数据以图的形式表现，那么将会非常有益于推荐的制定不适用场景不适合的数据模型。图数据库的适用范围很小，因为很少有操作涉及到整个图。当

13、下已经存在很多的NoSQL数据库，比如MongoDB、Redis、Riak、HBase、Cassandra等等。每一个都拥有以下几个特性中的一个：不再使用SQL语言，比如MongoDB、Cassandra就有自己的查询语言通常是开源项目为集群运行而生弱结构化不会严格的限制数据结构类型文档数据库源起：受Lotus Notes启发。数据模型：包含了key-value的文档集合例子：CouchDB, MongoDB 优点：数据模型自然，编程友好，快速开发，web友好，CRUD。图数据库源起：欧拉和图理论。数据模型：节点和关系，也可处理键值对。例子：AllegroGraph, Info

14、Grid, Neo4j 优点：解决复杂的图问题。关系数据库源起：E. F. Codd 在A Relational Model of Data for Large Shared Data Banks提出的数据模型：各种关系例子：VoltDB, Clustrix, MySQL 优点：高性能、可扩展的OLTP，支持SQL，物化视图，支持事务，编程友好。对象数据库源起：图数据库研究数据模型：对象例子：Objectivity, Gemstone 优点：复杂对象模型，快速键值访问，键功能访问，以及图数据库的优点。 Key-Value数据库源起：Amazon的论文Dynamo和Distri

15、buted HashTables。数据模型：键值对例子：Membase, Riak 优点：处理大量数据，快速处理大量读写请求。编程友好。 BigTable类型数据库源起：Google的论文BigTable。数据模型：列簇，每一行在理论上都是不同的例子：HBase, Hypertable, Cassandra 优点：处理大量数据，应对极高写负载，高可用，支持跨数据中心， MapReduce。数据结构服务源起：? 数据模型：字典操作，lists, sets和字符串值例子：Redis 优点：不同于以前的任何数据库网格数据库源起：数据网格和元组空间研究。数据模型：基于空间的架构例子：GigaSpaces, Coherence 优点：适于事务处理的高性能和高扩展性你的应用应该用什么? 关键是要意识到不同的应用需要不同的数据模型和产品。选择合适的数据模型和产品。要了解你的应用需要什么样的数据模型可以看What The Heck Are You Ac

展开阅读全文