数据网格中数据复制管理技术研究论文

资源描述

《数据网格中数据复制管理技术研究论文》由会员分享，可在线阅读，更多相关《数据网格中数据复制管理技术研究论文（58页珍藏版）》请在金锄头文库上搜索。

1、 .硕士学位论文数据网格中数据复制管理技术研究A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of EngineeringResearch on Data Replicating Managementin Data GridCandidate :Zhang Huina Major :Computer Software and TheorySupervisor :Associate Prof. Xu LiPingHuazhongUniversity of Science

2、and TechnologyWuhan 430074, P. R. ChinaJune, 2007 / 独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作与取得的研究成果。尽我所知，除文中已经标明引用的容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科

3、技大学可以将本学位论文的全部或部分容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。，在_年解密后适用本授权书。本论文属于不。（请在以上方框打“”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日摘要计算网格被用来解决广域网中分布的资源共享、互联和互操作问题。随着数据密集型应用的飞速发展，数据呈爆炸式增长，数据网格技术应运而生，而且正成为网格技术的另外一个研究重点。数据复制技术是数据网格中一个重要的组成部分，被广泛应用于分布式数据库、移动数据库和Internet等分布式环境之中。创建副本可以降低远程访问该数据的网络延迟以与带宽消耗，还可

4、以提高网络的负载均衡。而良好的副本定位机制可以有效的定位可能存在的诸多副本也是数据网格关注的重要问题之一。主要对数据复制管理中的副本创建策略和副本定位机制两个方面展开了研究。副本的创建策略研究的是如何在合适的时间、合适的地点创建相应数据副本。通过分析和研究用户驱动和利润驱动的副本动态创建策略，提出域副本衍生和域间副本创建相结合的副本创建策略。基于数据网格的层次性，把整个网格划分为域和域外两部分，针对各自不同的特性，实施不同的副本创建方法，有效提高了访问效率、减少带宽消耗、节省存储空间,通过仿真试验验证了上述优越性。数据副本的定位也是提高数据访问速度的一个重要方面，通过综合研究和评价基于同一个模

5、型的几种分布式、动态自适应的副本定位方法，提出一种改进的分布式动态副本定位方法(Decentralized Dynamic Replica Location method, DDRL)。通过对算法进行理论分析和测试，结果表明DDRL定位方法能够实现宿主节点的负载均衡，同时该方法具有可靠性高、分布性、可扩展性好等特点。关键词：数据网格;数据复制;副本创建;副本定位AbstractComputational grid has been used to solve a wide area network distributed resource sharing, networking and int

6、eroperability issues, with the rapid development of data-intensive applications and the explosive growth of data, Data Grid emerged and become another focus of grid. Data Replica Management is one of the critical parts in Data Grids.It has been widely applied in the areas of distributed database, mo

7、bile database, Internet and other distributed environments. Replication can reduce access latency, and balance theloads for distributed applications. Excellently Replica location is also important to reduce access latency in data grids. This paper investigates on two component of replica management

8、in data grids: replicas creation strategies and replica location mechanism.Replicas creation strategies tend to make decisions on where and when to create which data replicas. we propose our replicas creating strategy based on investigating and analyzing the related researches. The method employ the

9、 different methods between the inner domain and the inter domain. This method can also reduce access latency, improve data locality and improve the overall performance of the grid system.Replica location is also important to reduce access latency in data grids. we proposed an improved replica locati

10、on mechanism-Decentralized Dynamic Replica Location method(DDRL),based on investigating and analyzing some Dynamic self-Adaptive Replica Location Method.Keywords: Data Grid; Data Replica; Replica creation; Replica location目录摘要IAbstractII1绪论1.1研究背景(1)1.2国外研究现状(3)1.3研究的容(8)1.4本文结构(9)2数据复制管理技术2.1数据复制管理

11、相关概念(10)2.2数据复制管理技术的特点和功能(12)2.3数据复制管理关键技术(13)2.4小结(14)3副本创建策略3.1问题的提出和网格环境(15)3.2相关的工作与评价(16)3.3域副本衍生和域间副本创建策略(20)3.4小结(22)4副本定位机制4.1问题的提出(23)4.2相关工作与评价(24)4.3一种改进的分布式动态副本定位方法DDRL(26)4.4小结(30)5数据复制管理系统原型设计实现5.1原型系统环境(31)5.2系统各角色之间的具体实现(31)5.3各功能模块具体实现(33)5.4原型系统测试与分析(37)5.5小结(43)6总结和展望致(46)参考文献(47)

12、1绪论1.1研究背景1.1.1网格计算模型从1969年最早的互联网雏形由美国军方采用到今天人们在互联网上进行科学计算、阅读新闻、采集信息、和网上聊天以与游戏等，基于Internet的电子政务、电子商务、数字地球也应运而生，互联网高速发展，已经成了人们日常生活不可或缺的一部分。然而，科学家们也被当前互联网存在的一些缺憾困扰，尤其是在进行大规模分布式计算时，诸如网络瓶颈、资源共享之类的问题也层出不穷。因此他们潜心研究继Internet和Web之后的第三代互联网网格。网格(Grid)自90年代中期被提出以来，得到迅速的发展，被称作“下一代互连网”。它的目标是将地理上分布、异构的各种计算机、服务器、虚

13、拟现实系统等所有的网络资源通过高速互连的网络连接集成起来，以实现资源的高度共享和统一访问，从而消灭资源孤岛。所以网格最初被提出并研究的原由是为了大规模的并行计算，称为计算网格1,2(Grid Computing)。计算网格在科学研究和工程计算中发挥了巨大的作用，取得了巨大的成功。然而，人们需要的不仅是实施大规模的数据计算，还需要存储、传送、分析海量数据科学研究、军事决策、战场仿真、分子物理、数字地球计划,都迫切需要缩短提取和处理原始数据到高层信息的时间。这就需要扩充网格的数据管理能力，建立一种有效的数据管理体系结构以对网格的高效的数据访问提供有力支持。在这种情况下，数据网格应运而生。1.1.2

14、数据网格的产生网格计算最重要的特征就是资源的共享和协同计算，由于技术的发展，现代大型科学工程研究，信息服务和数字媒体应用中的数据呈爆炸式增长，应用数据从几十个Terabyte到Petabyte，而且还在持续高速的增长，数据已经成为一个重要的资源，例如全球气候模拟、高能物理、生物计算、战场仿真、核模拟、数字地球，电子商务、电子政务、数字媒体等应用。它们的数据将达到几十个Terabyte至Petabyte的级别，地理上广泛分布的用户都希望能够访问、分析和使用这些庞大的分布数据，而他们的分析方法往往是计算复杂和计算量大，这种结合海量数据集合，地理上分布的用户和资源，以与计算密集型的分析处理应用导致现

15、有的数据管理体系结构、方法和技术己经不能很好的满足高性能、大容量分布存储和分布处理能力的要求，如何存储、分发、组织和管理、高性能处理、分析和挖掘海量分布数据成为许多应用的首要问题。数据网格技术的发展为解决这个问题提供了一条有效的技术途径。数据网格3(Data Grid)是当前网格领域的研究热点，它的概念来自网格。它是网格技术在数据管理方面的应用和实现。最终目标是建立异构分布环境下海量数据的一体化操作的构架和环境，从而更好地解决海量数据难于组织、难以处理的问题。它通过开发能够集成网络上分布的多个数据集之类的资源，形成单一虚拟的数据访问、管理和处理环境，为网络用户屏蔽底层物理资源，从而建立分布式海量数据的一体化数据访问、存储、传输、管

展开阅读全文