分布式文件存储与检索平台的设计与实现

上传人:w****i 文档编号:115331242 上传时间:2019-11-13 格式:PDF 页数:47 大小:11.56MB
返回 下载 相关 举报
分布式文件存储与检索平台的设计与实现_第1页
第1页 / 共47页
分布式文件存储与检索平台的设计与实现_第2页
第2页 / 共47页
分布式文件存储与检索平台的设计与实现_第3页
第3页 / 共47页
分布式文件存储与检索平台的设计与实现_第4页
第4页 / 共47页
分布式文件存储与检索平台的设计与实现_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《分布式文件存储与检索平台的设计与实现》由会员分享,可在线阅读,更多相关《分布式文件存储与检索平台的设计与实现(47页珍藏版)》请在金锄头文库上搜索。

1、湖南大学 硕士学位论文 分布式文件存储与检索平台的设计与实现 姓名:曹挹芬 申请学位级别:硕士 专业:计算机技术 指导教师:王东;李勇航 20090915 丁程硕t 学位论文 摘要 信息爆炸时代,人们对于有效信息的获取已成为基本要求,而“数据丰富,信息贫 乏“ 这一现状,促使信息检索技术在不断的更新和完善。目前数字信息量激增、存储价 格低廉、网络迅猛发展,在这种情况下要快速获取有效信息,传统的本地文件系统因受 单一的设备局限,其存储容量和存储效率都已经很难满足当前人们对存储管理的要求。 分布式的文件存储和检索系统具有的高效、稳定、可扩展性强等优势,成为了我们实现 高效的存储检索平台的首选地方式

2、。 分布式并行编程模型很多,各有特点,我们比较了经典的O p 枷、M P I 和最近 比较热门的M a p R e d u c e 编程模式,发现O p e n M P 可扩展性差而M P I 的编程模型复杂。 M a p R e d u c e 是G o o 酉e 提出的一种针对大规模群组中的海量数据处理的分布式编程模 型。其优点在于:可扩展性好,可读性强,并具有较好的自动并行能力和容错能力。 本文分析了分布式系统优势,介绍了M a p R e “c e 这种编程模式;建立了一个基于 M a p R e d u c e 的分布式文件存储系统( D F S :d i s t r i b u t

3、 e df i l es y s t 锄) ,并在此存储系统上构 建了分布式检索平台( D I R :d i s 砸b u t c di n f o 曲a t i o nr e 仃i e V a l ) ,实现了检索。 实验对比说明,随着处理数据的增加,基于M a p R e d u c e 的分布式文件存储和检索 系统的效率远优于单机处理以及M P I 并行系统,但是还是有阀值问题;改进R e d u c e 阶 段的性能,可以提高并行计算系统的整体性能;博客存储检索系统的设计与实现,验证 了基于M a p R e d u c e 模型的分布式文件存储与检索系统具有可行性。 关键字:并行计算

4、,分布式文件存储系统,分布式检索系统,海量数据,映射规约 工程硕上学位论文 A b s t r a c t h ln l ed i 百t a le r ao fi I l f o 皿a t i o ne 】【p l o s i o I l ,m es t o r a g ea n dr e t r i e V a lo fi n f o m a t i o nw i l l b e c o m et l l eb a S i cm e a I l s 肌de l l d s h 1m ei n f o 册a t i o na g e ,“D a t a 订c l l i n f o n T l

5、 a t i o np o o r ,i sm e n 1 0 s ts i 鲥f i c a I l tf e a n 鹏T h e r e f o r c i I l f o m a t i o nr e 倒e V a lte c :I l I l o l o g yi sc o n s t 锄n yu p d a t e d 锄d i m p r o v e d S u 略ei I lV o l u m eo fd i 百t a li n f o 彻a t i o n ,s t o r a g ep r i c e sa r el o w ,廿l er a p i dd e V e l

6、o p - m 锄to fm en 咖o r k ,a c c e s st ol l s e 向l i n f o H I l a t i o ni I lm ec o n t e x to fs e V e r a lb a c k g r o u n da b o V e , t r a d i t i o n a lf i l es y s t e ml i m i t e dt oas i n 酉ed e v i c ei sa l r e a d yd i f 6 c u l tt om e e tt h er e q u i r e r n e l l t s o fs t o

7、r a g em a l l a g e m e n t T h ed i s t r i b u t e ds t o r a g ea r l dr e 研e V a ls y s t e mh 鹊s n o n ga d V 锄t a g e so f h i 曲e 伍c i e n c y ,s t a b i l 时锄ds c a l a b i l i 魄i sm eb e s tw a y t oc o m p l yae 街c i tS t o r a g ea n dr e t r i e v a l D i s t r i b u t e dp a r a l l e lp

8、 r 0 伊a I 】m i n gm o d e lf o ral o to fd i 毹r e n tc h a r a 曲耐s t i c s ,w ec o r n p a r e 恤c l a s s i co p 训P ,M P Ia n dr e c e n t l ym o r ep o p u l a rM 印R e d u c ep r o 孕a r 衄i n gm o d e l 锄d f o l H l dt h a tp 0 0 rO p e l l M Ps c a l a b l eM P Ip r o 黟a m m i n gm o d e li sc o m

9、p l e x M 印R e d u c ei sp r e s e I l t e d 勰aG o o 酉eg r o u pf o rl a r g e - s c a l em a s sd a t ap r o c e s s i n gd i s t r i b u t e dp r o 伊锄姗i n gm o d e l T I l ea d v a n t a g e s :s c a l a b i l i 够i sg o o d ,r e a d a b l e ,a 1 1 dh 嬲b e t t e ra u t o - p a r a l I e l i s m 锄df

10、 a u l tt 0 1 e l ? 赫c e T 叛st h e s i sa n a l y z e sm ed i s t r i b u t e ds t o r a g ea n dr e t r i e V a ls y S t 锄ss 仃D n ga d V a n t a g e so f h i g l le 伍c i e n c y ,s t a b i l i t y 锄ds c a l a b i l i 吼a n di n t r o d u c e so n ek i n do fs i m p l i f i e dd i s t r i b u t e d p

11、 r o 伊锄m i n gm o d e l M a p R e d u c e T I l i st h e s i si n 仃o d u c e sh o wt oe s t a b l i s haM a p R e d u c e b a s e dd i s t r i b u t e df i l es t o r a g es y s t e m ( D F S ) ,a I l dh o w t 0i m p l e m e n tad i s t r i b u t e di 1 1 f o n l l a t i o nr e t r i e V a l ( D I R

12、 ) p l a t f o r mo nt h i s s t o r a g es y s t 锄t oa c h i e V e 如1 1 一t e X ts e a r c h 1 1 1 r o u 曲e x p 舐m e l l t a lc o m p 撕s o n ,w ef o u n dm a tm ee 伍c i e n c yo ft h ed i s t r i b u t e df i l e s y s t e mi sf 缸a h e a do fs t a I l d a l o n e 打e a 缸n e n t 、j l J h e nd a t ap r

13、 o c e s s i n gi n c r e a s e d I I la d d i t i o n ,t h e k e yo fe 腩c t i v e l yi m p r o v i n gt h ee m c i e n c yo fp a r a l l e lc o m p u t i n gs y s t e I I l si s t oe n h a I l c ei t s c o n c u 盯e n c yw h e nu n d e rt h ep e m i t o ft h es y s t 锄h a r d w a r ec o n d i t i o

14、n s K e yW o r d s :P a r a l l e lC o m p u t i n g ;D i s t r i b u t e dF i l eS y s t e n l ( D F S ) ; D i s t r i b u t e dI n f o m a t i o n R e 砸e V a l ( D I R ) ;M A S SD A l A ;m a p p i n gp r o t o c o l I I I 工程硕上学位论文 插图索引 图2 1M a p R e d u c e 示例。7 图2 2M a p R e d u c e 执行流程8 图2 3 基于

15、M a p R e d u c e 的程序在G o o 哲e 源代码树上的增长趋势1 1 图3 1 分布式文件系统硬件拓扑1 4 图3 2 分布式文件系统架构1 4 图3 3 文档I D 与目录的映射算法1 4 图3 4 分布式文件存储系统工作流程图1 5 图3 5 文件读取流程1 7 图3 6 文件替换流程18 图3 7 文件上传流程1 9 图3 8 文件删除流程1 9 图4 1 分布式检索系统框架图。2 1 图4 2 分布式检索系统拓扑图。2 2 图4 3 全文倒排索引结构一2 2 图4 4 检索关键算法2 3 图4 5 分伟式检索系统工作流程图2 5 图4 6 文件插入流程2 7 图4 7 文件删除流程。2 8 图4 8 文件检索流程

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号