哈工大数据库系统课件第九章数据库系统体系结构

上传人:w****i 文档编号:92680866 上传时间:2019-07-12 格式:PPT 页数:211 大小:1.29MB
返回 下载 相关 举报
哈工大数据库系统课件第九章数据库系统体系结构_第1页
第1页 / 共211页
哈工大数据库系统课件第九章数据库系统体系结构_第2页
第2页 / 共211页
哈工大数据库系统课件第九章数据库系统体系结构_第3页
第3页 / 共211页
哈工大数据库系统课件第九章数据库系统体系结构_第4页
第4页 / 共211页
哈工大数据库系统课件第九章数据库系统体系结构_第5页
第5页 / 共211页
点击查看更多>>
资源描述

《哈工大数据库系统课件第九章数据库系统体系结构》由会员分享,可在线阅读,更多相关《哈工大数据库系统课件第九章数据库系统体系结构(211页珍藏版)》请在金锄头文库上搜索。

1、第九章 数据库系统体系结构,内容出处: 1.Abraham Silberschatz数据库系统概念第十一章1-3节,第二十章,第二十一章1-6节,第二十二章1-7节,教学目的 本章在一个更高的层次上认识数据库系统,首先简要介绍一下数据库的存储结构,然后从传统的集中式系统开始,依次讨论客户-服务器系统、并行数据库系统和分布式数据库系统,使学生了解如何根据不同的计算环境搭建与之相适应的数据库系统。 主要内容 数据存储,数据库系统体系结构概述,集中式数据库系统,数据库系统,并行数据库系统,分布式数据库系统 教学方法 课堂讲授为主 重点 集中式数据库系统、数据库系统、并行数据库系统、分布式数据库系统的

2、概念及特点,分布式事务模型,分布式查询处理 难点 分布式查询处理,第九章 数据库系统体系结构,物理存储介质,特性 数据存取速度 每单位数据的成本 可靠性 电源故障或系统崩溃时的数据丢失 介质故障 介质分类 易失介质(volatile storage) 电源关时数据丢失 非易失介质(non-volatile storage) 电源关时数据持久保留,包括二级和三级存储,物理存储介质,高速缓冲存储器(Cache) 最快最昂贵的存储介质,一般由操作系统来管理 主存储器(Main memory) 用于存放可被处理的数据的存储介质 快速访问,但一般不能存放整个数据库 如果发生电源故障或系统崩溃,主存储器中

3、的数据会丢失 快闪存储器(Flash memory) EEPROM:电可擦可编程只读存储器 电源故障时数据会保存 读速度:0.1s; 写速度:10s,物理存储介质,磁盘存储器(Magnetic-disk storage) 用于长期联机数据存储 一般存放整个数据库 数据必须从磁盘移入主存才能访问 直接存取(direct-access) 按任意顺序存取数据 如果发生电源故障或系统崩溃,数据不会丢失 光盘存储(Optical storage) CD-ROM:只读,提供预先记录的数据 WORM:一次写,多次读,用于数据归档,物理存储介质,磁带存储(Tape storage) 用于数据的备份和归档 顺序

4、访问(sequential-access) 速度慢 容量大 价格低,存储层次,基本存储,辅助存储,三级存储,易失性存储,非易失 性存储,存储层次,基本存储(primary storage) 快速但易失 cache, main memory 辅助存储(secondary storage) 非易失,相对快速 联机存储(on-line storage) flash memory, magnetic disks 三级存储(tertiary storage) 非易失,速度慢相对快速 脱机存储(off-line storage) magnetic tape, optical storage,磁盘结构,磁盘

5、性能估计,访问时间 从发出请求到数据开始传输之间的时间 寻道时间(Seek time) 磁盘臂定位时间,即磁盘臂移动到正确的磁道所需时间 与移动距离成正比,平均寻道时间是最坏时间的1/3 旋转等待时间(Rotational latency ) 寻道结束后,等待被存取的扇区出现在读写头下面的时间 平均旋转等待时间是磁盘旋转一周时间的1/2 数据传输率 从磁盘获得数据或向磁盘存储数据的速率 平均故障时间(MTTF) 预期系统无故障连续运行的时间 是指基于全新磁盘发生故障的可能性,RAID,问题 可靠性 吞吐速度 热点内容同时被访问时,如果把整个文件都放在一个磁盘上,那么用于同时访问该文件的用户数目

6、必然受到磁盘传输带宽的限制。 解决的办法 在多个磁盘上保持多个备份-过于昂贵。 将文件分散到多个磁盘中 数据在不同的磁盘间如何组织才能达到既提高服务质量又避免负载不平衡是一个挑战问题,RAID,廉价磁盘冗余阵列(RAID) Redundant Arrays of Inexpensive Disks 是一种利用大量廉价磁盘进行磁盘组织的技术 价格上,大量廉价的磁盘比少量昂贵的大磁盘合算得多 性能上,使用大量磁盘可以提高数据的并行存取 可靠性上,冗余数据可以存放在多个磁盘上,因此一个磁盘的故障不会导致数据丢失 过去RAID是大而昂贵的磁盘的替代方法;今天,使用RAID是因为它的高可靠性和高数据传输

7、率;因此 “I” 代表independent,而非inexpensive,RAID,通过冗余提高可靠性 N个磁盘组成的集合中某个磁盘发生故障的概率比特定的单个磁盘发生故障的概率高很多 假定单个磁盘的MTTF是100,000小时 (约为11年),则由100个磁盘组成的阵列的MTTF是1000小时(约为41天) 冗余(Redundancy) 存储额外的信息,以便当磁盘故障时能从中重建 镜像(Mirroring or shadowing) 一个逻辑磁盘由两个物理磁盘组成,写操作在每个磁盘上执行 如果其中一个发生故障,数据可以从另一个磁盘读出 只有第一个磁盘的故障尚未恢复,第二个磁盘也发生故障,这时才

8、会发生数据丢失 假定一个磁盘的MTTF是100,000小时,修复时间是10小时,则镜像磁盘系统的MTTF是100,0002/(2*10)=500*106小时,约为57000年,RAID,通过并行提高性能 负载平衡多个小的存取操作(即页面存取),以提高这种存取操作的吞吐量 并行执行大的存取操作,以减少大的存取操作的响应时间 通过在多个磁盘上对数据进行拆分来提高传输率 比特级拆分(Bit-level striping) 将每个字节按比特分开,存储到多个磁盘上 例如,对于一个由8个磁盘组成的阵列,将每个字节的第i个比特位写到第i个磁盘上;它的存取速度是单个磁盘的8倍 对于由4个磁盘组成的阵列,将每个

9、字节的第i个比特位和第i+4个比特位写到第i个磁盘上 块级拆分(Block-level striping) 对于由n个磁盘构成的阵列,文件的第i块 存放在第(i mod n) + 1个磁盘上,RAID,RAID级别 镜像提供高可靠性,拆分提供高数据传输率,通过利用与奇偶校验相结合的磁盘拆分思想,可以实现以较低成本提供冗余的方案 不同的RAID级别,具有不同的代价、性能和可靠性,C,P,代表数据的第二个拷贝,表示纠错位,RAID 0,块级拆分且没有任何冗余(如镜像或奇偶校验位)的磁盘阵列-可靠性低 可以并行读写所有驱动器,从而获得高的数据吞吐量 用于高性能访问并且数据丢失不十分重要的应用场合,R

10、AID 1,块级拆分的磁盘镜像 完全容错,成本高 读数据的速度比较高,但因为要写镜象盘,如果控制器或者软件的性能跟不上的话,有可能写盘的速度比RAID 0慢。 一般用于类似于数据库系统中日志文件存储的应用场合,RAID 2,按比特级拆分,具有内存风格的纠错码 纠错码(ECC:Error-Correcting-Codes) 内存中每个字节都有一个奇偶校验位与之相连,它记录这个字节中为1的比特位的总数是偶数(=0)还是奇数(=1),如果字节中有一位被破坏,则字节的ECC与存储的ECC就不会相匹配;通过ECC可以检测到所有的1位错误;通过更多的附加位,当数据遭到破坏时,还可以重建数据,RAID 2,

11、RAID 2,RAID 2使用共轴同步(spindle synchronize)技术,存取数据时,整个磁盘阵列一起动作,在各个磁盘的相同位置作平行存取,所以有最好的存取时间(access time),以大带宽(band wide)并行传输所存取的数据,所以有最好的传输时间(transfer time) 对于大型档案的存取应用,RAID 2有最好的性能,但如果档案太小,性能会下降,因为磁盘的存取是以扇区为单位,而RAID 2的存取是所有磁盘平行动作,故小于一个扇区的数据量会使其性能大打折扣 RAID 2适合于存取连续且大量数据的应用,如大型电脑、作影像处理或CAD/CAM的工作站等,RAID 3

12、,磁盘控制器能够检测一个扇区是否被正确的读出 如果一个扇区被破坏,我们先能准确地知道是哪个扇区坏了,然后对扇区的每一位,通过计算其他磁盘上对应扇区的对应位的奇偶值来推断该位是1还是0。如果其余位的奇偶值等于存储的奇偶值,则丢失的位是0,反之为1 RAID 3效果与RAID 2一样,但只有一个磁盘的额外开销 使用N道数据拆分的RAID 3对一个字节的读写散布在多个磁盘中,因此读写一个块的传输率是使用N道数据拆分的RAID 1的N倍 每个磁盘参与每个I/O请求,每秒RAID 3支持的I/O数较少,RAID 3,RAID 3,故障恢复,生成校验盘,RAID 3,写操作,读D1,D3,写D2,D4,读

13、D2,D4,写D2,D4,RAID 4,块级拆分,在一个独立的磁盘上为其他N个磁盘上对应的块保留一个奇偶校验块 读取一个块只访问一个磁盘 每个存取操作的传输率低,但可以并行地执行多个读操作,从而产生较高的总的I/O率 读取大量数据的操作有很高的传输率,因为所有磁盘可以并行地读,RAID 4,RAID 4,读数据:一种潜在的并行,假定D1忙,其余磁盘空闲,RAID,RAID 5 将数据和奇偶校验位都分布到所有的N+1个磁盘上;对每个块,一个磁盘存储奇偶校验位,其余磁盘存储数据 例如由5个磁盘组成的阵列,第n块的奇偶校验位存储在第(n mod 5)+1上,其余4个磁盘的第n块存储了对应这个块的实际

14、数据 奇偶校验块不能和这个块对应的数据存储在同一个磁盘上 所有磁盘都参与对读请求的服务,而RAID 4中奇偶校验磁盘不参与读操作 RAID 5包容了RAID 4,同时在相同成本下,提供了更好的读写性能,RAID 5:块交叉的分布奇偶校验,P,P,P,P,P,RAID 5,RAID 6,类似于RAID 5,存储了额外的冗余信息 不采用奇偶校验位的方法,使用类似Reed-Solomon码的编码 对每4位数据存储2位冗余信息 可以容忍两个磁盘发生故障,RAID 6:P+Q冗余,P,P,P,P,P,P,RAID 6,Hamming code D5对应D1, D2, D3 D6对应D1, D2, D4

15、D7对应D1, D3, D4,RAID 6,生成校验盘,RAID 6,故障恢复,取D1,D4,D6,取D1,D2,D3,RAID 6,写操作,高性能 可靠性差,完全容错 成本高,高数据传输率 大数据量,高的总I/O率 适合随机读 大数据量,高可靠性,用于数据安全性不是很重要的高性能应用,相对于RAID5,RAID3很少使用,适于日志文件的存储,相对于RAID1,具有较低的存储开销,但写操作开销高,因此适于经常进行读而很少写的应用,适于数据安全十分重要的应用,选择合适的RAID级别,RAID 1 or RAID 5? 依赖于读/写的比率 为写1块数据,RAID 5需要2块读和2块写 如果应用需要

16、每秒r次读,w次写 RAID 1要求每秒r + 2w次I/O操作 RAID 5要求每秒r + 4w次I/O操作 当写操作较少并且数据非常大时,RAID 5较优,否则RAID 1更佳,选择合适的RAID级别,RAID 0 无冗余拆分 RAID 1 镜像 RAID 5 拆分校验码 RAID 10 拆分镜像,选择合适的RAID级别,选择合适的RAID级别,选择合适的RAID级别,日志文件 RAID 1 容错,高写输出率 临时文件 RAID 0 is appropriate. 无容错,高吞吐率 数据以及索引文件 RAID 5适合于读为主的应用 RAID 10适合于写为主的应用,数据库系统体系结构,数据库系统体系结构,数据库系统体系结构概述 集中式数据库系统 数据库系统 并行数据库系统 分布式数据库系统,数据库系统体系结构概述,数据库系统的体系结构与计算机系统的体系结构密切相关 集中式体系结构 集中式数据库系统 计算机的联网 客户/服务器数据库系统 并行处理能力 并行数据库系统 分布计算能力

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号