基于重复数据检测的数据备份

上传人:E**** 文档编号:118270925 上传时间:2019-12-11 格式:PDF 页数:72 大小:2.61MB
返回 下载 相关 举报
基于重复数据检测的数据备份_第1页
第1页 / 共72页
基于重复数据检测的数据备份_第2页
第2页 / 共72页
基于重复数据检测的数据备份_第3页
第3页 / 共72页
基于重复数据检测的数据备份_第4页
第4页 / 共72页
基于重复数据检测的数据备份_第5页
第5页 / 共72页
点击查看更多>>
资源描述

《基于重复数据检测的数据备份》由会员分享,可在线阅读,更多相关《基于重复数据检测的数据备份(72页珍藏版)》请在金锄头文库上搜索。

1、分类号: U DC : 工学硕士学位论文 密级: 编号: 基于重复数据检测的数据备份 硕士研究生 指导教师 学位级别 学科、专业 所在单位 论文提交日期 论文答辩日期 学位授予单位 :杨兴坤 :姚念民教授 :工学硕士 :计算机系统结构 : 计算机科学与技术学院 :2 0 10 年1 月 :2 0 10 年3 月 :哈尔滨工程大学 - D a t aB a c k u pB a s e do nD u p l i c a t e dD a t a D e t e c t i o n C a n d i d a t e : Y a n gX i n g k u n S u p e r v i s

2、o r :P r o f Y a oN i a n m i n A c a d e m i cD e g r e eA p p l i e df o r :M a s t e ro fE n g i n e e r i n g S p e c i a l i t y :C o m p u t e r A r c h i t e c t u r e D a t eo fS u b m i s s i o n :J a n u a r y , 2 010 D a t eo fO r a lE x a m i n a t i o n :M a r c h ,2 010 U n i v e r s i

3、 t y :H a r b i nE n g i n e e r i n gU n i v e r s i t y j 哈尔滨工程大学 学位论文原创性声明 本人郑重声明:本论文的所有工作,是在导师的指导下,由 作者本人独立完成的。有关观点、方法、数据和文献的引用已在 文中指出,并与参考文献相对应。除文中已注明引用的内容外, 本论文不包含任何其他个人或集体己经公开发表的作品成果。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 作者( 签字) :杨酱柙 日期: z o l o 年3 月I f 日 哈尔滨工程大学 学位论文授权使用声明

4、本人完全了解学校保护知识产权的有关规定,即研究生在校 攻读学位期间论文工作的知识产权属于哈尔滨工程大学。哈尔滨 工程大学有权保留并向国家有关部门或机构送交论文的复印件。 本人允许哈尔滨工程大学将论文的部分或全部内容编入有关数据 库进行检索,可采用影印、缩印或扫描等复制手段保存和汇编本 学位论文,可以公布论文的全部内容。同时本人保证毕业后结合 学位论文研究课题再撰写的论文一律注明作者第一署名单位为哈 尔滨工程大学。涉密学位论文待解密后适用本声明。 本论文( 口在授予学位后即可回在授予学位1 2 个月后 口解密后) 由哈尔滨工程大学送交有关部门进行保存、汇编等。 作者( 签字) :i 韧岩砷 日期

5、:加扣年弓月扩日 导师( 签字) :姚忿民 即,D 年弓月以日 、 一 一 哈尔滨工稗大学硕十学伊论文 摘要 随着信息技术的高速发展,信息数据已成为企业拥有的最有价值的财产, 信息数据的丢失或损坏会给企业带来无法弥补的损失,数据备份无疑是最佳 防范措施。随着企业的发展,需要备份的数据量呈爆炸性增长,如何高效的 完成对海量数据的备份是一个急需解决的问题;数据备份中会产生大量的冗 余数据,占据大量的磁盘空间。重复数据检测技术作为一项比较热门的技术, 可以检测冗余数据,减少数据存储量,因此将重复数据检测技术和数据备份 技术结合起来研究具有很高的实用价值。 本文首先介绍了数据备份和重复数据检测的相关知

6、识,针对传统重复数 据检测算法无法识别文件重命名、路径变更的问题,本文提出基于N T F S 文 件系统的文件状态判断算法。重复数据检测算法一般采用基于数据块的哈希 检测,这种方法实现简单但不能根据网络状况来调整数据块的大小,针对该 问题本文提出一个根据网络状况动态的调整数据块大小的算法,将数据块划 分为六个等级;在网络状况好时,重复数据检测的数据块要大一些;在网络 状况不好时,数据块要小一些,这时产生的差异数据量较少,减轻网络传输 的负担。该算法能够在网络传输和重复数据检测的计算开销之间找到一个平 衡点。 结合改进的重复数据检测技术和数据备份技术,本文提出基于重复数据 检测的数据备份方案,备

7、份系统主要包括重复数据检测模块、文件状态判断 模块、数据备份模块、数据加密模块和配置管理模块等。基于重复数据检测 的备份方案解决了三种常用备份方案的不足之处,减少数据备份中的数据冗 余度,提高数据备份的效率。 关键字:数据备份;文件匹配;重复数据检测;R s y n c 算法 b a c ku pg r o w sr a p i d l y H o wt oe f f i c i e n t l yb a c ku pt h eh u g ea m o u n to fd a t ai sa n u r g e n tp r o b l e m I na d d i t i o n ,t h

8、eb a c k u pw i l lp r o d u c er e d u n d a n td a t aw h i c hw i l l t a k eal o to fd i s ks p a c e s T h ed u p l i c a t e dd a t ad e t e c t i o ni sap o p u l a rt e c h n i q u e w h i c hC a nd e t e c ta m o u n to fr e d u n d a n td a t aa n dr e d u c et h es t o r a g e T h e r e f

9、 o r e ,t h e c o m b i n i n gr e s e a r c ho fd u p l i c a t e dd a t ad e t e c t i o na n dd a t ab a c k u p i so fg r e a t p r a c t i c a lv a l u e F i r s t l y , t h i sp a p e ri n t r o d u c e sd a t ab a c k u pa n dd u p l i c a t e dd a t a d e t e c t i o n T r a d i t i o n a la

10、 l g o r i t h m so fd u p l i c a t e dd a t ad e t e c t i o nc a n n o ti d e n t i f yf i l er e n a m eo r f i l es h i f t ,a n dt h i sp a p e rp r o p o s e saB i r t h O b j e c ti d b a s e dF i l eM a t c hS c h e m et o a d d r e s s e st h ep r o b l e mf o rN T F Se n v i r o n m e n t

11、 T h ea l g o r i t h mo fd u p l i c a t e dd a t a d e t e c t i o nw h i c hi sb a s e do nd a t ab l o c k s h a s h - d e t e c t i o nc o u l dn o ta d a p ti t ss i z e a c c o r d i n gt ot h ec o n d i t i o no fn e t w o r k T h i sp a p e rp r o p o s e sam e t h o dw h i c hC a n a d a p

12、 tt h es i z eo fd a t ab l o c k s ,a n dt h ed a t ab l o c ki s d i v i d e di n t os i xg r a d e s T h e d a t ab l o c kw i l lb eb i g g e rw h e nt h ec o n d i t i o no fn e t w o r ki sw e l l ;a n dt h ed a t a b l o c kw i l lb es m a l le rw h e nt h ec o n d i t i o no fn e t w o r ki

13、sb a dw i t hag r o w i n g c o m p u t a t i o n a lo v e r h e a d T h em e t h o dC a na c h i e v eab a l a n c eb e t w e e nt h en e t w o r k m ii t r a n s m l S S l O na n dt 。l l eC O S tO t “d e t e c u 。o n dQ W i t ht h ei m p r o v e dt e c h n i q u e so fd u p l i c a t e dd a t ad e

14、 t e c t i o na n dd a t ab a c k u p , t h i sp a p e rp r e s e n t sas c h e m eo fd a t ab a c k u pb a s e do nd u p l i c a t e dd a t ad e t e c t i o n T h i ss y s t e mc o n s i s t so fd u p l i c a t e dd a t ad e t e c t i o n ,j u d g m e n to ff i l es t a t e ,d a t a 氏 0 6 , 哈尔滨T 稃大

15、学硕十学位论文 b a c k u p ,d a t ae n c r y p t i o n a n dc o n f i g u r a t i o nm a n a g e m e n t T h e m e t h o dc a l l o v e r c o m et h ec o m m o ns h o r t c o m i n g so ft h et h r e es c h e m e so fd a t ab a c k u p ,a n di t C a nr e d u c et h ed a t ar e d u n d a n c yo fd a t ab a c k u pa n di m p r o v et h ee f f i c i e n c yo fd a t a b a c k u p K e yw o r d s :D a t ab a c k u p ;F i l em a t c h ;D u p l i c a t e dd a t ad e t e c t i o n ;R s y n c 6 芒 I 哈尔滨T 稗大学硕十学位论文 目录 第1 章绪论l 1 1 课题背景1 1 2 数据备份技术研究现状2 1 3 重复数据检测技术研究现状4 1 4 普遍存在的问题5 1 5 本文的主要工作5 1 6 论文的组织结构

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号