大连理工大学算法分析与设计20143章_分布式数据库系统的设计2014-12-3讲解

资源描述

《大连理工大学算法分析与设计20143章_分布式数据库系统的设计2014-12-3讲解》由会员分享，可在线阅读，更多相关《大连理工大学算法分析与设计20143章_分布式数据库系统的设计2014-12-3讲解（114页珍藏版）》请在金锄头文库上搜索。

1、第三章分布式数据库系统的设计 1 徐喜荣 2012年11月2013年1月徐喜荣（xirongxu ) 第三章分布式数据库系统的设计 2 1 分布式数据库系统设计的目标在理想情况下，分布式数据库系统的用户可不关心数据的物理分布，由系统负责处理在不同站点上的分布数据。但是数据实际分布情况会影响系统的总体性能：访问多个数据对象所需的时间和费用，会因为这些数据对象是存放在同一站点，还是分布在多个站点有很大差别。分布式数据库系统中最重要的目标是尽量减少对网络的利用，即尽可能减少站点之间的通信次数和通信量。因此，分布式数据库系统的数据库设计者必须仔细考虑数据是否分片，片段如何复制，

2、以及数据或片段如何分布，甚至在分布式数据库管理系统支持高的分布透明性时也要如此。第三章分布式数据库系统的设计 3 DDBS 设计目标目标一：本地性或近地性；目标四：存储能力和费用。目标二：控制数据适当冗余；目标三：工作负荷分布； 1 分布式数据库系统设计的目标第三章分布式数据库系统的设计 4 1 分布式数据库系统设计的目标目标一：分布式数据库的本地性或近地性分布式数据库设计中的一个主要原则是使数据和应用实现最大程度的本地性。开发一个分布式数据库的主要目的：通过尽可能地使数据靠近使用该数据的应用进行分配，从而提高处理的本地性或近地性，减少通信。在一个精心设计的分布式数

3、据库中，90%的数据应当在本地站点找到而只有10%的数据需要在远程站点上进行访问。也即最有效的设计是确保数据对最大数目的应用具有本地性。设计方法是对每种可供选择的分片方法和片段的分配方法都统计出本地访问和远程访问的次数，然后从其中选择一个最佳的方案。第三章分布式数据库系统的设计 5 目标二：控制数据适当冗余 1 分布式数据库系统设计的目标控制数据的适当冗余是分布式数据库系统设计的又一个目标。在分布式数据库系统中，为了提高系统的本地性、并发度和可靠性，需要增加数据的副本。这不仅使应用具有高度的可用性和本地性，而且当数据的任何一个副本不能使用时，可方便地使用在另一站点中的该数据

4、的副本进行恢复，从而提高系统的可靠性。第三章分布式数据库系统的设计 6 目标三：工作负荷分布 1 分布式数据库系统设计的目标分布式计算机系统的一个重要特征是把工作负荷分布在网络中的各个站点上。分布工作负荷的目的是充分利用每个站点的计算机的能力和资源以提高应用执行的并行程度，从而提高系统的性能。第三章分布式数据库系统的设计 7 数据库的分布会受到各站点的存储能力的影响。在网络中可以有专门用于存储数据的站点，也可以有完全不支持大量容存储的站点。一般数据存储的费用与 CPU，I /O及传输的费用相比是不重要的，但是必须考虑各站点可用存储空间的限制。 1 分布式数据库系统设计的

5、目标目标四：存储的能力和费用第三章分布式数据库系统的设计 8 2 分布式数据库系统设计的内容分布式数据库系统设计的内容包括：分布式数据库的设计和应用设计。分布式数据库的设计包括全局模式设计和每个站点的局部数据库设计。其中的关键是数据库的全局模式应如何划分，并映射到合适的站点上。由此产生了分布式数据库设计所特有的两个新问题：数据的分片设计和片段的位置分配设计。分片设计研究的是全局模式分片的“逻辑准则”，而片段的位置分配设计研究的是处理数据在各站点上的“物理布局” 。在分布式数据库设计中，为使分片设计和片段的位置分配设计得到的模式能够高效地支持应用，还需要知道应用的确切要求。

6、第三章分布式数据库系统的设计 9 2 分布式数据库系统设计的内容 DDBS 设计 DDB设计应用设计全局模式设计局部数据库设计各个应用的原发站点各个应用在每个站点激活频率各个应用对要求访问数据对象的访问次数、类型和统计分布数据的分片设计和位置分配设计第三章分布式数据库系统的设计 1.2 分布式数据库的发展重构法：一种自顶向下的创建方法。根据系统的实现环境和用户需求，按照分布式数据库系统的设计思想和方法，采用统一观点，从总体设计做起，包括各站点上的数据库系统，重新建立一个分布式数据库系统。 1.按照统一的思想来考虑分布式数据库系统中的各种问题，有效地解决分布式

7、数据库系统数据一致性、完整性和可靠性。 2.花费的人力、物力会比较多，研制周期也比较长，系统建设的代价会比较大。采用重构法创建的分布式数据库系统，通常是同构异质或同构同质DDBS。大多选择同构型分布式数据库系统。用户1用户2用户n 分布式数据库管理系统网络 3 分布式数据库系统的设计方法第三章分布式数据库系统的设计 11 3.1 分布式数据库的发展 3 分布式数据库系统的设计方法组合法：一种自底向上的创建方法，也称集成法。利用现有的计算机网络和独立存在于各个站点上的现存数据库系统，通过建立一个分布式协调管理系统，集成为一个统一的分布式数据库系统。 1.先剖析网

8、络功能； 2.剖析各个站点上原有的数据库系统； 3.解决数据的一致性、完整性和可靠性； 4.若各站点上DBMS 不相同，理论和实践难度较大。采用组合法的分布式数据库系统通常是异构或者同构异质DDBS。用户1用户2用户n 分布式协调管理系统 DBMS1DBMS2DBMSm 网络第三章分布式数据库系统的设计 12 DDBS 设计方法自顶向下方法（重构法）：从头开始设计分布式数据库。设计者理解用户的数据库应用要求，历经概念设计、逻辑设计和物理设计阶段，并将与计算机系统无关的规格说明逐渐求精成低级的、与计算机系统有关的规格说明。概念设计和逻辑设计的结果是数据库的全局模

9、式，包含了数据库的所有数据元素及其使用形式。专门针对分布式数据库的一个设计阶段称为分布设计，将全局模式映射成几个可能交叠的子集模式，每一个子模式表示与一个站点有关的信息子集，然后完成每一单个数据库的设计。混合方法：许多实际情况中，设计者一部分使用自顶向下方法，另一部分使用自底向上方法。自底向上方法（组合法）：通过聚集现存数据库设计分布式数据库。由于需要互联一些现存数据库以形成一个多数据库系统，或者是由于对各站点已独立完成了数据库的概念说明，所以各站点上数据库规格说明已是现存的。需综合各站点的规格说明，以便得到分布式数据库的全局概念模式。 3 分布式数据库系统的设计方法

10、第三章分布式数据库系统的设计 13 3.1 自顶向下设计方法需求分析概念设计视图设计分布设计物理设计观察与监视系统需求全局概念模式访问模式外部模式定义局部概念模式物理模式用户输入视图集成用户输入反馈反馈自顶向下设计过程 3 分布式数据库系统的设计方法第三章分布式数据库系统的设计一、集中式数据库设计包括四个阶段：需求分析、概念设计、逻辑设计、物理设计。需求分析涉及收集用户数据库应用的非结构规格说明，并收集在设计数据字典中。概念设计产生全局、综合数据库模式的一种概念规格说明和在此模式上执行应用的概念规格说明。逻辑设计将综合概念模式转换成一给定的

11、DBMS类型(关系、网状、层次或面向对象模型)的数据库模式。物理设计要遵照所选择的特定DBMS的能力和特征进行，并产生实现数据库的物理访问结构的定义。 3.1 自顶向下设计方法 3 分布式数据库系统的设计方法第三章分布式数据库系统的设计 15 二、分布式数据库设计增加一个新的阶段：分布设计分布设计位于逻辑设计与物理设计之间，以一个全局的、与站点无关的模式作为输入，以产生分布式数据库各站点的子模式 ( 局部概念模式 )作为结果输出。分布设计包括：数据的分片设计和片段的位置分配设计。分片是指把一个全局对象(实体或关系)细分成若干逻辑片段的过程；分配是指把各片段映射到一个或多个

12、站点的过程，片段是最合适的数据分配单位。 3.1 自顶向下设计方法 3 分布式数据库系统的设计方法第三章分布式数据库系统的设计把现有数据库集成起来构成分布式数据库时，可采用自底向上的方法。此方法重点是把将现有的各种不同的数据库模式集成为全局模式。集成就是把公用数据定义合并起来，并解决对同一个数据的不同表示方法之间的冲突。把现有数据库集成为一分布式数据库时，现有数据库很可能使用的是不同的DBMS，这将构成异构系统，从而增加了数据集成的复杂性。此时可以在每对不同的DBMS之间进行一对一的翻译，也可选择一个公用数据模型，然后再把涉及这个DBMS的所有的不同模式都翻译成这种

13、唯一的表示方法。 3.2 自底向上设计方法 3 分布式数据库系统的设计方法第三章分布式数据库系统的设计自底向上设计方法主要问题是构造一个全局模式（超视图）. 把分布式数据库中各站点上的数据库模式看成是全局模式的一个视图，则寻求全局模式的问题可以看作是视图综合问题。概括分层结构支持视图综合。概括分层允许定义两个实体之间的类型和子类型关联，用于两个视图对同一实体的部分属性相交时。视图综合问题的经典方法就是生成三个实体：一个实体具有共同属性（超类型），两个实体具有不相交属性（子类型）。在全局视图中，共同属性与子类型相关联，并且对包含非相交属性的各个视图生成一子类型。视图综合次

14、序问题：一次把一个视图和全局模式进行综合，逐步构造起全局视图。通常最好首先综合最大的或最重要的视图，然后综合小的或者不重要的视图。 3.2 自底向上设计方法 3 分布式数据库系统的设计方法一、构造全局模式问题分析第三章分布式数据库系统的设计班机机号日期可用座位出入口座位图延期班机机号日期可用座位机型座位图班机班机1班机2 机号日期可用座位座位图出入口延期机型使用概括分层的两个视图的合并 3.2 自底向上设计方法 3 分布式数据库系统的设计方法第三章分布式数据库系统的设计识别相似性：综合两个模式的第一步是识别它们的相似性，识别相似性是

15、综合模式的出发点。从先前存在的数据库中数据的相似性可以推得匹配，相似的值集表明相交。通过比较属性，可以识别匹配属性域。如果在不同站点上有相似应用，使用各自数据库中的数据副本, 则这两站点的数据库之间有某些相似点。 3.2 自底向上设计方法 3 分布式数据库系统的设计方法二、识别相似性和识别冲突第三章分布式数据库系统的设计识别冲突：识别不同模式中相似数据的不同表示或域定义。通过在全局模式中引入差异或在源模型中做一些折中，可以解决冲突。模式差异包括命名冲突、域差异、定标差异和结构差异。命名冲突：同物异名（EMP,EMPLOYEE）和异物同名。通过在全局模式中存储名

16、字对应表就能方便地解决。域差异：检测此问题通过比较源数据库或文件并注意不一致性来进行。概括分层可以用来表示这一问题的解。定标差异：在具有同一数值的不同视图中可以见到定标差异，如计量单位不同(天、小时、分钟、秒）。设计中如有可能，应使用更精确的定标来检索数据，并使用换算公式进行连接或输出。结构差异：同一对象有的用实体描述, 有的用属性描述。视图设计中，一般通过改变一个或两个视图来解决结构差异。 3.2 自底向上设计方法 3 分布式数据库系统的设计方法第三章分布式数据库系统的设计处理操作期间的不一致数据策略（5种）对于设计时不能解决的冲突，需设计可供选择的策略，当执行时检测到不一致性时，以回答有不一致数据的查询。这些策略包括：显示任一不一致值，但不通知用户。这是最直截了当，同时也是最危险的解决办法。显示所有不一致值，并告诉用户不一致值信息源。在这种情况下，用户应能评价不一致性的原因。求

展开阅读全文

大连理工大学算法分析与设计20143章_分布式数据库系统的设计2014-12-3讲解

最新文档