第九章：数据分布规划

资源描述

《第九章：数据分布规划》由会员分享，可在线阅读，更多相关《第九章：数据分布规划（31页珍藏版）》请在金锄头文库上搜索。

1、第九章：数据分布规划第一节引言随着计算机和存储设备价格的下降，具有分布式数据的分布式处理，日益得到广泛发展。当数据被存放在多个价格相对便宜而地理位置分散的机器中时，对于自顶向下的规划与控制，比集中式数据库系统更为需要。如果没有作自顶向下的规划，或者管理人员不执行这种规划，那么很可能是每个系统分析员或用户组都在自己的地点设计为自己所拥有的数据。对于这种数据描述的混乱，有些企业已采取了分散安装小型/微型计算机，用分布式处理加以解决。其它一些企业正在效法这一策略。小型/微型计算机和分布式数据的优点很多，更何况硬件的价格很低。我们要利用这些优点，防止数据不一致性的危害，就必须加强分布式的数

2、据管理功能，严格管理控制自顶向下的数据规划的执行。在某些情况下，用户管理员明确表示要拥有自己的微型或小型计算机，要求设计出满足他们需要的应用系统。随着硬件与软件的改进，用户迫切需要在他们的区域内有他们自己的计算机与数据库。因此，要求在总体规划中作好数据分布规划。第二节分散存储数据的理由在技术成本许可的条件下，把数据存放在使用它们的地方通常是很有意义的。这样，用户会把数据库文件看成是自己的数据，因而对数据录入及其准确性负责，提高数据的完整性。在许多组织中，数据的录入和存储职能已经从数据处理中心下放给用户部门自己完全掌握，这样使数据的准确性得到极大的改善。某些数据的固有属性必然导致分

3、散存储。现将这些属性概述如下：1. 有些数据在一个外围地点使用，而在其它地点很少或根本不使用。这样，向中心传送存取数据，既复杂又费钱，是完全没有必要的。2. 当地部门负责自己数据的准确性，保密性和安全性。3. 有些数据文件是简单的，并且仅有一个或少数几个应用项目使用它们。因此使用数据库软件很少或者根本没有什么优越性。4. 对于单一的集中式数据存储系统来说，数据更新的频率太高。5. 使用最终用户语言对外围文件进行检索或处理，无疑地会导致一些倒排表或辅助关键字操作。过多的这类最终用户操作，会危害中心系统的性能。解决这一问题的较好办法，是由最终用户负责在本部门花自己的钱，使用自己的外围系统。

4、分散管理数据的主要特征是，有的数据只在一个外围地点使用，而在其它地点很少或根本不用。例如，在一个大公司的分部办事处，象顾客地址这样的信息，在公司的其它部门根本不使用。但是，分部办事处的另外一些信息，其它部门却是需要的。例如，顾客的订货单是制造分厂所需要的；销售数量是采购中心所需要的；保险公司的保险单数字是总公司作保险统计时所需要的。自然地导致分散管理数据的另一个特征是，有些简单的数据文件只被一个或几个应用项目所使用，没有必要搞复杂的数据库操作。将某些数据主体存储在用户部门的另一个原因是，许多用户是按综合信息系统的方式来检索这些数据的。这就需要辅助索引、倒排表或者一些不同于中心计算机

5、上的数据结构。查找这些用户需要的数据所占用的时间长短是非常重要的，所以最好是在最终用户自己的小型/微型计算机上进行。这样，当用户使用自己的数据时，就不会引起中心计算机的忙乱，时间的长短也由用户自己掌握。特别值得指出的是，要使最终用户的信息系统的一些活动不受侧重于主要数据处理任务的主计算机的制约，要让他们按自己的方式自由地使用数据。第三节集中存储数据的理由某些数据的固有属性必然导致集中存储。这些属性列举如下：1. 有些数据是被集中式的应用项目所使用的，例如全公司的工资单，采购单，会计总账等。2. 所有部门的用户需要存取相同的数据，而且需要新到分钟级版本的数据。这种数据更新频繁，这就

6、需要集中管理，避免因更新频繁而引起的多副本的实时同步问题。3. 如果用户要检索许多分散在各地的数据，那么将这些数据集中管理要比采用数据交换网便宜。4. 有的数据要作为一个整体被检索。回答用户自然地提出的问题是综合信息系统的功能之一，有些问题只要查找一些记录就可以了，有些问题则要查找地理位置上分散的数据，这就要耗费许多时间，为提高软件和硬件的查询效率，就需要将这些数据集中到一个地点。这样对于一个存储系统来说，就可以使用辅助索引技术和索引软件了。5. 有些数据结构的设计要满足多项应用，并且要使用数据库软件，其优越性已在一些文献中有所讨论。考虑到系统的效率和复杂性，目前这种数据库软件适用于

7、集中式操作，还不适用于地理位置上分散的数据操作。6. 有些数据要保持高度的安全性。数据的保护措施可能很费钱，很可能存放在戒备良好的安全的房间内，由授权用户严格管理。采用外部后备副本在一个地点保存数据，要比在分散的地点保存数据安全得多。7. 有的数据量太大，不能存储在便宜的外围存储设备上，最经济的方法是采用大容量的集中式存储设备。8. 为使系统具有可审查性，需要保存某些事务更新的细节，这些转储到一个大型集中式数据库存储设备，可以更便宜，更安全些。在许多系统中，数据存在着两种存储方式：自然地集中方式和自然地分散存储方式。集中管理数据的一个特征是，这种数据经常地被进行更新，而被不同地点的多

8、个用户所使用。这些用户都需要整体数据的最新状态，并且还要让这些用户在不同的地点对整体数据进行修改。因此，不能一个地方保存一个数据副本。这种应用系统的典型例子是：飞机、旅馆、出租汽车的预订系统，以及库存控制系统，军事预警系统和存储检查系统等。如果仅仅是数据更新频率高，而查询时间是以小时计而不是以秒计，或者更新的地点总在一个地方，就应该采取分布式存储。例如，一个跨国公司信息服务系统，在一个地点对数据作频率更新，多处保存数据副本，当查询最大时，可节省很多费用。材料市场管理系统，也是在一个地方进行频繁的数据更新，随时给出材料的价格和其它信息，多处使用数据副本。如果用户总在一个地点使用终端，

9、可以把所需要的数据存储在那里。如果用户位置不固定，那么既可以集中存储，也可以用一种传送方法把用户存储数据的几个地点连接起来。一个拥有多个支行的银行系统，可以将储户的帐单都存储在各支行中。但是，如果要求自动化程度很高，应允许在各支行的智能终端上既能进行处理又能将结果传送到远处的中心计算机集中存储。一般只有少数当地顾客光顾的其它当地支行，可以在本地支行和其它地方支行之间设置一个数据交换系统。由于同一个系统中常有不同的数据使用方法，因此，同一个系统中数据存在着不同的存储形式，有集中式，也有分布式。机票预订系统，大多数信息是关于班次和座位的，而且信息量仅占一小部分，可方便地存储在终端中，

10、其它大量的信息存储在中心计算机中。也可以将不同的有关信息存储在附近航空公司的计算机中，当订票档次高时，再通过数据传输取到这些信息。而且更接近于人工管理方式。第四节多份数据副本小型存储设备的价格下降速度比传送价格的下降速度快得多，这成为分布式数据传送得到发展的动因。当机器便宜时，即使数据的更新是相当频繁，采用多个数据副本也是经济的，当然要提供适当的软件机制和控制手段。早期数据库管理中的一个主要问题是避免多余的数据副本，某些权威把数据库定义为无冗余的数据集。后来发现，在某些环境中，如果能提供一种软件对冗余的副本进行控制而保证数据的完整性，那么多个数据副本的存在还具有一些经济上的优越性。

11、当多个冗余数据副本存在时，它们的结构应该从同一的无冗余的逻辑数据模型中推导出来。同样数据的多个分布式副本，是指一个系统可以设计一个以上的同样数据的副本，在不同的地点上使用。这种副本存在的理由如下：1. 传送费用复制数据副本的费用要比长距离传送数据的费用低。2. 响应时间存取本地数据比存取远程数据明显地改善响应时间。3. 可用性存取本地数据，或者存取备份副本中的数据，可明显地提高数据的可用性。4. 安全性在一个数据副本被破坏的情况下，可以使用两个或多个数据副本。5. 数据组织同样的数据可以用不同的结构存放在不同的机器中，比如，一个机器支持日常事务处理系统，另一个机器支持综合信息系统。6.

12、转换费用数据库或分布式系统实现之后，旧的数据文件可以保存起来，因为转换程序要用新的数据结构花费一定的代价和时间进行转换工作。将这些数据聚集为某些数据类时，会出现多个副本的完整性控制问题。如果不提供良好的分布式数据库软件，就会出现多副本数据的完整性和同步性问题。在一些计算机系统中，目前还缺乏这样的软件，这就需要用户提供控制机制来克服这些问题，改善软件系统的功能。分布式数据的另外一些问题列举如下，这些都需要在进行分布式系统规划时加以考虑:1. 更新事务处理之间的冲突两个事物的处理可能同时更新远处存储的相同的数据项，这就可能引起相互冲突，产生错误的数据。这种问题可以采取适当的封锁或协议方法

13、加以预防。2. 不一致读取从多个数据副本中读取，或者仅从一个分布式数据副本中读取，都可能得到不一致的信息。有时，由于时序控制不当，而引起读数失败。这种问题也可以采取适当的封锁或协议方法加以预防。3. 死锁对分布式数据加锁以防止存取冲突，可能引起死锁，除非采取适当的协议(相当复杂)。4. 协议总开销如果不经过认真的思考，采用协议的方法预防无效的更新，不一致的读取和死锁问题，可能招致格外的总开销，特别是当采用多副本数据时，这一问题更严重。5. 恢复故障发生后的恢复工作需要加以控制，使更新的数据不会偶然丢失，也不要做重复的处理。6. 多副本的恢复当存在多个数据副本时，一次事故发生后，它们

14、可能处于不同的更新状态，必须把它们恢复到相同的状态。但是，当系统是作实时事务处理时，这种恢复到相同状态的工作是相当复杂的。7. 不同的数据表示由于缺乏数据管理或管理上的严格控制，同一个数据在不同的地点可能会有不同的表示。8. 审查在一些分布式系统中，要找出谁对数据进行了什么操作是很困难的。因此，需要对可审查性作出设计。9. 安全性和保密性措施在分布式系统中，安全性控制和保密性措施有时是很薄弱的，因而需要在基本设计时加以考虑。第五节分布式数据的六种形式分布式数据基本上存在着六种形式：1) 复制数据(Replicated Data)2) 子集数据(Subset Data)3) 重组织数据

15、(Reorganized Data)4) 分区数据(Partitioned Data)5) 分离模式数据(Separate-Schema Data)6) 不兼容数据(Incompatible Data)这六种形式概述在图9.1中，现在逐一讨论如下。1 .复制数据复制数据是指在不同的地点保存相同数据的几个副本。这样做的主要原因，是重复的存储避免了系统之间的数据传输，而且费用便宜。只有数据的使用频率比更新频率高得多时，这样的组织才是有意义的。许多复制数据是不变的(或很少变化，因为完全不变的数据根本没有)。作为一个例子，英国邮政Prestel系统(一个电视数据系统)是一个公用数据服务系统。通

16、过电话线把家庭电视与系统相连，相对小的当地系统中，这些数据由中心系统进行更新。另一个例子，是跨国公司所使用的数据需要作成多个付本，存储在许多国家中，这要比采用国际数据网来处理这种查询便宜得多。地区&的记录据方法正在迅速增图书检索系统图9.1分布式数由于小型存储设备的价二一二一HOSThost企业B 的数据加其经济上的吸引力，这种财政上的2. 子集数据这种数据通常是存储在外围计算机中，作为较大计算机的数据库的一个子集。这样做的基本原因有两条。第一，这种数据在外围地点使用频繁；第二，这种数据在那些地点生成。在数据录入操作方面，数据往往是在当地计算机上由键盘输入的，对成批数据进行检查，控制精度，然后再将成批数据传送到远距离的数据库中去。

展开阅读全文