对等存储系统数据管理研究(1)

上传人:w****i 文档编号:110630485 上传时间:2019-10-30 格式:PDF 页数:130 大小:2.83MB
返回 下载 相关 举报
对等存储系统数据管理研究(1)_第1页
第1页 / 共130页
对等存储系统数据管理研究(1)_第2页
第2页 / 共130页
对等存储系统数据管理研究(1)_第3页
第3页 / 共130页
对等存储系统数据管理研究(1)_第4页
第4页 / 共130页
对等存储系统数据管理研究(1)_第5页
第5页 / 共130页
点击查看更多>>
资源描述

《对等存储系统数据管理研究(1)》由会员分享,可在线阅读,更多相关《对等存储系统数据管理研究(1)(130页珍藏版)》请在金锄头文库上搜索。

1、 分类号 TP315 学号 05058003 密级 公 开 工学博士学位论文 对等存储系统数据管理研究对等存储系统数据管理研究 博士生姓名 刘志明 学 科 专 业 管理科学与工程 研 究 方 向 分布式信息管理 指 导 教 师 沙基昌 教授 国防科学技术大学研究生院国防科学技术大学研究生院 二二一一一一年年十十月月 对 等 存 储 系 统 数 据 管 理 研 究 国 防 科 学 技 术 大 学 研 究 生 院 Research on Data Management in Peer-to-Peer Storage System Candidate:Liu Zhiming Supervisor:P

2、rof. Sha Jichang A dissertation Submitted in partial fulfillment of the requirements for the degree of Doctor of Engineering in Management Science and Engineering Graduate School of National University of Defense Technology Changsha,Hunan,P.R.China October,2011 国防科学技术大学研究生院博士学位论文 第 I 页 目目 录录 摘 要 i A

3、BSTRACT iii 第一章 绪论 1 1.1 概述.1 1.1.1 P2P 研究背景1 1.1.2 P2P 存储系统5 1.1.3 研究意义.6 1.2 P2P 数据管理需要研究的关键问题11 1.3 本文工作17 1.3.1 本文主要研究内容18 1.3.2 相关但不涉及内容19 1.4 论文结构21 第二章 相关研究概述 . 23 2.1 主要 P2P 网络拓扑结构23 2.2 P2P 副本管理 28 2.2.1 副本管理.29 2.2.2 P2P 副本管理特点及存在问题30 2.2.3 副本一致性.32 2.3 P2P 元数据管理.33 2.3.1 相关研究内容.35 2.3.2 元

4、数据管理方式 .36 2.4 P2P 信息检索 37 2.4.1 P2P 信息检索原理.38 2.4.2 P2P 信息检索方式.40 2.4.3 P2P 信息检索评价.43 2.5 本章小结44 第三章 资源“热度”相关的副本管理和修复机制. 45 3.1 前言.45 3.1.1 数据冗余.45 3.1.2 数据分布和放置 .47 3.1.3 节点检测和数据修复48 国防科学技术大学研究生院博士学位论文 第 II 页 3.2 相关工作50 3.3 副本冗余设计51 3.3.1 故障检测原型.52 3.3.2 资源热度定义.52 3.3.3 副本计算模型.53 3.4 冗余副本修复策略54 3.

5、5 实验及结果分析55 3.6 本章小结58 第四章 I-BSP2P:一种兴趣聚集的 P2P 元数据管理机制. 59 4.1 前言.59 4.2 元数据管理体系结构 59 4.3 P2P 元数据管理相关工作.61 4.4 I-BSP2P 设计.63 4.4.1 I-BSP2P 体系结构.63 4.4.2 I-BSP2P 设计思想.64 4.4.3 I-BSP2P 中 BF 数组副本更新及迁移.66 4.4.4 I-BSP2P 中 BF 错误率分析 67 4.5 实验及结果分析69 4.5.1 聚集的 SN 数目 N 对性能的影响.69 4.5.2 平均查询延迟.70 4.5.3 数据迁移损耗.

6、71 4.6 本章小结72 第五章 基于体裁互文性的 P2P 上下文信息检索. 73 5.1 前言.73 5.1.1 本文研究内容.73 5.1.2 P2P 信息检索研究现状 .74 5.1.3 任务上下文和体裁75 5.2 体裁互文性基本概念、性质与度量.78 5.2.1 信息空间体裁互文性基本概念79 5.2.2 信息空间体裁互文性基本性质79 5.2.3 体裁互文关系度量算法80 5.2.4 体裁互文性度量验证实验设计81 5.3 基于互文性的文档体裁识别和检索结果的过滤85 5.3.1 文档体裁的识别 .86 5.3.2 文档体裁向量的识别与生成87 国防科学技术大学研究生院博士学位论

7、文 第 III 页 5.3.3 检索结果的过滤 .87 5.4 基于体裁的查询目标预测.88 5.4.1 问题描述.88 5.4.2 基于遗传算法的查询目标预测算法.89 5.5 实验原型系统92 5.5.1 实验系统.92 5.5.2 数据集.93 5.5.3 任务收集器.94 5.6 实验及结果分析96 5.7 本章小结99 第六章 总结与展望. 101 6.1 论文的主要创新点101 6.2 进一步的研究工作103 致 谢. 104 参考文献. 105 作者在学期间取得的学术成果. 114 国防科学技术大学研究生院博士学位论文 第 页 IV 表 目 录 表 2.1 P2P 拓扑结构性能比

8、较.28 表 4.1 存在的元数据管理策略比较62 表 4.2 RES 和 INS Traces.69 表 5.1 同一个任务下的文档体裁试验结果89 表 5.2 Swish 中系统事件的编码方式95 国防科学技术大学研究生院博士学位论文 第 页 V 图 目 录 图 1.1 P2P 系统体系结构及本文涉及内容(灰底)22 图 2.1 Napster 工作原理 24 图 2.2 Guntella 体系结构.25 图 2.3 一个简单的 Chord 环(m=3) 25 图 2.4 KaZaa 工作原理示意图.27 图 2.5 P2P 信息检索流程 39 图 2.6 P2P 信息检索过程研究模型.3

9、9 图 2.7 Napster 集中式搜索过程示意图 41 图 2.8 TTL 为 2 的广度优先泛洪式搜索流程.42 图 3.1 纠删码原理图.46 图 3.2 Chord 环结构的数据分发和放置示意图 47 图 3.3 得到节点信息和第一个心跳检测报文的时间间隔图示 .49 图 3.4 两个心跳报文的时间间隔图示49 图 3.5 最长故障发现时间图示 .49 图 3.6 改进的 SFFD 故障检测模型52 图 3.7 资源可用性比较.56 图 3.8 副本维护带宽占用率.56 图 3.9 不同副本数下资源查找所耗费的消息数 57 图 4.1 PVFS 系统结构.60 图 4.2 COSMO

10、S 系统结构.61 图 4.3 I-BSP2P 体系结构.63 图 4.4 I-BSP2P 查询策略和层次关系图65 图 4.5 SN 加入聚集的过程66 图 4.6 SN 离开聚集的处理过程67 图 4.7 不同聚集 SN 数目的吞吐率 70 图 4.8 基于 INS 的 xFS、I-BSP2P、Chord 平均查询时间比较 71 图 4.9 基于 RES 的 xFS、I-BSP2P、Chord 平均查询时间比较71 图 4.10 基于 RES 的 xFS、I-BSP2P、Chord 平均副本迁移数量比较72 图 5.1 本章主要研究内容.74 图 5.2 Ingwersen 上下文分层嵌套

11、认知模型 .76 图 5.3 实验设计数据结构.81 国防科学技术大学研究生院博士学位论文 第 页 VI 图 5.4 用户看过行为和电影标签关系图83 图 5.5 用户想看行为和电影标签的关系图84 图 5.6 用户影评行为和电影标签关系图84 图 5.7 实验原型系统架构.92 图 5.8 体裁生成与演化流程图 .93 图 5.9 体裁表示文档样例.94 图 5.10 QESwish 系统结构图95 图 5.11 Scool 和 Gnutella 召回率的比较关系图 .97 图 5.12 三种方法 MAP 比较关系图.98 图 5.13 三种方法 Bpref 指标评价效果.99 国防科学技术

12、大学研究生院博士学位论文 第 i 页 摘摘 要要 P2P是构建分布式体系结构的主流技术之一, 在现实世界已经得到大量普及和应 用。P2P存储作为P2P主要研究内容,更成为近年来研究热点之一,其目标是充分利 用广域网环境中各种可能的边缘节点进行大规模的协作计算和存储共享。然而由于 P2P系统具有开放性、自组织性和高度动态特性,使得对等存储系统运行过程中对用 户存在潜在的数据安全性和可用性问题。 P2P系统的大多数问题都可归结为数据管理 方面的问题,如数据分布与放置、数据检索等,而且这些数据管理问题在后起的云 计算系统、社交网络、信息物理融合系统等应用中依然存在。在云计算中,由于资 源相对集中,对

13、其管理也可以实现集约化。而P2P因为大量文件或者数据资源分散管 理和存储,难以保障资源的可靠性。因此,研究数据管理问题成为解决对等存储系 统容错性、可靠性以及节点数据分发和查找的关键。云存储是分布式存储技术与虚 拟化技术结合的产物,是分布式存储技术的最新发展,对等技术在这种新的计算模 式下依然具有旺盛的活力。 在大规模对等存储系统中,对数据的管理成为整个系统运行生命周期中最核心 的问题。本文从整个系统的角度分析和研究对等存储系统的数据管理,包括数据本 身以及元数据的管理问题。前者主要涉及到数据副本的管理,而后者则和数据的分 发、检索和查找相关,即元数据表示和组织。在以上研究基础上,设计和实现了

14、一 个半结构化的对等存储原型系统-石鼓(Scool)。本文在向对等存储系统构建技术 进行系统、全面的总结基础之上,就对等存储数据管理问题展开了深入细致的研究, 取得了若干创新成果。本文的主要贡献包括以下几方面: (1)设计了一种数据副本数量计算模型。对等存储系统中副本数据管理,涉及 数据冗余策略、数据分发以及数据修复等问题。副本冗余是提高数据可用性和并发 访问效率的关键技术。本文结合节点的在线率和资源访问的热度设计副本的数量, 其绕开了对系统可用性非确定性的计算难点,并且根据数据资源访问的热点频度考 虑副本的数量(网络中大量的访问总是针对当前最热门的话题),在提高资源可用 性的同时提高数据资源

15、的并发访问速度,减少数据副本一致性维护开销。这种方法 根据节点所承担的角色不同采取不同的修复策略,有效的解决了由于 P2P 系统节点 高动态变化所带来的不确定性影响,节省系统整体存储和计算资源,减少系统不同 节点数据间一致性维护开销和副本维护带宽占用率,从而较好的适应于对等存储系 统的性能需求。 (2)提出了一种兴趣聚集的对等存储系统元数据管理机制。目前展开针对 P2P 存储系统元数据管理的研究还比较缺乏,本文基于半结构化 P2P 存储系统,设计了 一个基于兴趣的 Bloom Filter 结构 I-BSP2P。其使用基于兴趣聚集、分层的 Bloom 国防科学技术大学研究生院博士学位论文 第

16、ii 页 Filters 去定位和组织元数据, 把对元数据的查询路由到不同的超级节点上。 实验表明 这种方法具有较好的自适应性和可扩展性,在查询时间、数据迁移损耗等指标上均 取得了满意的结果。 (3)设计和实现了一个基于体裁互文性的 P2P 信息检索模型。目前针对 P2P 信 息检索的研究大多集中在资源搜索机制上面,而 P2P 存储系统是一个多结构数据存 储系统,系统中有多个数据源,数据有各种表示形式,不同的用户对相同的现实世 界的实体可能会使用不同的描述数据,有不同的表示,这样必然会产生语义异构的 问题。本文首次以语言学中体裁互文性理论为基础,将体裁互文性概念拓展到信息 空间任务上下文,解决文档体裁的自动识别问题;同时,用体裁表达文档目标及查 询目标,解决传统方法中查询目标用体裁显式表达的困难。这对于 P2P 信息检索技 术的实现和完善有一定借鉴意义,同时为语言学的体裁互文性理论研究提供新视野 和方法。着重在三个方面开展研究

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号