基于hadoop的分布式存储平台的搭建与验证毕业论文

上传人:cl****1 文档编号:507369756 上传时间:2023-03-06 格式:DOC 页数:106 大小:1.08MB
返回 下载 相关 举报
基于hadoop的分布式存储平台的搭建与验证毕业论文_第1页
第1页 / 共106页
基于hadoop的分布式存储平台的搭建与验证毕业论文_第2页
第2页 / 共106页
基于hadoop的分布式存储平台的搭建与验证毕业论文_第3页
第3页 / 共106页
基于hadoop的分布式存储平台的搭建与验证毕业论文_第4页
第4页 / 共106页
基于hadoop的分布式存储平台的搭建与验证毕业论文_第5页
第5页 / 共106页
点击查看更多>>
资源描述

《基于hadoop的分布式存储平台的搭建与验证毕业论文》由会员分享,可在线阅读,更多相关《基于hadoop的分布式存储平台的搭建与验证毕业论文(106页珍藏版)》请在金锄头文库上搜索。

1、毕业设计(论文)中文题目:基于hadoop的分布式存储平台的搭建与验证英文题目: Setuping and verification distributed storage platform based on hadoop 毕业设计(论文)原创性声明和使用授权说明原创性声明本人重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作与取得的成果。尽我所知,除文中特别加以标注和致的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得与其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了意。作 者

2、签 名:日 期:指导教师签名: 日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部容。作者签名: 日 期:学位论文原创性声明本人重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明

3、确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日任务书题 目: 基于hadoop的分布式文件系统的实现与验证 适合专业: 信息安全 指导教师(签名):提交日期: 2013 年 3 月 8 日学院: 计算机

4、与信息技术学院 专业: 信息安全 学生:学号:毕业设计(论文)基本容和要求:本项目的目的是要在单独的一台计算机上实现Hadoop多节点分布式计算系统。基本原理与基本要求如下:1. 实现一个NameNodeNameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。实际的 I/O事务并没有经过 NameNode,只有表示 DataNode 和块的文件映射的元数据经过 NameNode。当外部客户机发送请求要求创建文件时,NameNode 会以块标识和该块的第一个副

5、本的 DataNode IP 地址作为响应。这个 NameNode 还会通知其他将要接收该块的副本的 DataNode。2。实现若干个DataNodeDataNode 也是一个通常在 HDFS 实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是:机架部节点之间的传输速度快于机架间节点的传输速度。DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。NameNode 依赖来自每个

6、 DataNode 的定期心跳(heartbeat)消息。每条消息都包含一个块报告,NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息,NameNode 将采取修复措施,重新复制在该节点上丢失的块。具体设计模块如下: 1、在虚拟机上安装多个linux系统。并将其中之一拟作为namenode,其余系统拟作为datanode2、在上述所有系统中安装ssh,以确保不同节点之间可以实现无密钥安全通信。3、在上述系统中安装hadoop,以确保各个系统都可作为hadoop系统的其中一个节点。毕业设计(论文)重点研究的问题:1. 基于windows环境

7、,完成虚拟机上一个linux系统下hadoop的实现。2. 基于系统克隆技术实现hadoop节点的复制。3. 在上述基础上实现节点间无密钥安全通信。4. 基于上述系统上运行wordcount以验证基于hadoop的分布式文件系统的有效性。5. 分析handoop 现有的安全机制可能存在的安全隐患并提出相应的解决措施。毕业设计(论文)应完成的工作:1。 了解整个系统的结构,针对系统所要完成的各项工作进行该方面的学习,掌握基于hadoop的分布式文件系统设计和实现方法。2。 完成系统中必备的各个配置步骤。3。 在系统上运行wordcount并进行系统性能分析。4。 完成该项目所涉与代码与配置步骤的

8、记录。5。 对handoop现有的安全机制存在的安全隐患提出相应的解决措施。 6。 毕业论文。参考资料推荐: Tom White著,曾大聃,周傲英译,Hadoop权威指南专著,:清华大学,2010勇著,基于hadoop平台的通信数据分布式查询算法的设计与实现硕士学位论文,:交通大学计算机学院,2009 周品主编,hadoop云计算实战专著。:清华大学,2012 书兰编著,典型hadoop云计算专著 。: 电子工业, 2013其他要说明的问题: / 题 目:基于hadoop的分布式文件系统的实现与验证学院: 计算机 专业: 信息安全 学生: 学号:文献综述:Hadoop分布式文件系统是遵循Goo

9、gle文件系统原理进行开发和实现的,受到IT业界极大关注,并已被广泛应用。鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从Hadoop分布式文件系统架构的建模人手通过对模型各组成部分进行分析并将其与传统的分布式文件系统进行比较。总结出Hadoop分布式文件系统具有的海量、高可扩展性、高可靠性、高性能等面向云计算领域应用的霞要特征。本文有助于研究者系统、深入地研究Hadoop分布式文件系统的设计与实现。并为云计算背景下的分布式文件系统设计提供雨要的参考。云计算是一种新兴的计算模型,它是并行计算、分布式计算、网格计算的综合发展,或者说是这些计算科学概念的商业实现。它的基本原理是将计算、存

10、储与软硬件等服务分布在非本地的大量计算机构成的资源池上,用户通过网络获得相应的服务,从而有效的提高资源利用率,实现了真正的按需获取。目前云计算模型众多,但多为商业模型,而Hadoop作为开源的云计算模型,它模仿和实现了Google云计算的主要技术,并且使用Java语言编写,可移植性强,为个人和企业进行云计算方面的研究和应用奠定了基础。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)高可靠性和高可扩展性的分布式文件系统能够提供海量的文件存储能力。它的开发和实现遵循了Coogle文件系统(Google file system,GFS)的核心原理,

11、而GFS作为Google云计算核心技术体系的底层,为相关技术如MapReduee分布式计算模型、Bigtable分布式数据库等)的实现提供了有效的支撑。同样,Hdfs本身以与以它为基础的一系列开源软件技术的研究和开发,已被业界广泛应用到云计算的具体实践中获得了非常好的效果。当前针对HDFS的研究普遍关注其具体的技术细节和实施效果尚缺乏对其进行系统设计理论上的分析和比较。本文从模型分析的角度人入手首先介绍在业界获得普遍认同的分布式文件系统的用户需求和架构模型然后针对HDFS的体系架构进行实现,最后将HDFS与传统的分布式文件系统进行比较总结了HDFS在云计算领域中应用的优势与存在的安全问题。并对

12、其设计和应用提出建议。从模型的角度出发可以分析出HDFS在设计和实现上的主要特征。1采用专用的服务器提供目录服务。Namenode对文件元数据进行管理能够维护统一的文件名字空间供用户访问以与从全局上对系统进行控制提高了系统的透明性和可扩展性:同时。Namenode不承担文件容的供给,减轻了节点压力。2采用数目众多的服务器提供扁平文件服务。多个Datanode可以同时为用户提供文件数据块服务。它们分布广泛并互为备份提高了系统在节点级的可靠性。因此单个节点可以由普通的PC服务器担当。有利于降低系统成本。3采用文件数据分块和数据块复制机制。文件数据被划为多个数据块,有利于对其容进行查找和定位,同时数

13、据块的多个拷贝能够提高系统在文件级和数据块级的可靠性;同时,分布在不同Datanode上的数据块可以被并行访问,改善了访问性能。4采用多种通信机制。根据通信对象和传输容的不同,分别提供了远程过程调用和数据流两种通信方式,实现了带外控制,提高了访问性能。Hadoop的优点在于:1)可扩展:不论是存储可扩展还是计算可扩展都是Hadoop的设计根本。Had00p的扩展非常简单,不需要修改任何已有的结构。2)经济:其框架可运行在任何廉价Pc上,对硬件没有特殊的要求。3)可靠:分布式文件系统的备份恢复机制与M印Reduce的任务监控保证了分布式处理的可靠性,Hadoop默认提供1个以上备份。4)高效:分

14、布式文件系统高效数据交互实现与MapReduce结合kal Data处理的模式,为高效处理海量信息打下基础。但是,通过对比、分析也可以发现,HDFS在一些方面仍然有待完善,可以向传统的分布式文件系统借鉴相关的方法和技术。同时,HDFS也不是万能的,文件服务的提供者必须根据实际需要选择合适的文件系统。主要参考文献:(1)Tom White著,曾大聃,周傲英译,Hadoop权威指南专著,:清华大学,2010(2)勇著,基于hadoop平台的通信数据分布式查询算法的设计与实现硕士学位论文,:交通大学计算机学院,2009(3) 周品主编,hadoop云计算实战专著。:清华大学,2012(4)书兰编著,典型hadoop云计算专著 。: 电子工业, 2013(5)春燕云环境下作业调度算法研究与实现交通大学,2009(6)纪俊一种基于云计算的数据挖掘平台架构设计与实现(7)析,廖志恒云计算的关键技术与发展现状J职业技术学院学报20112(8)云存储技术研究百度文库。wenku。baidu。(9)建勋,古志民,超云计算研究进展综述J计算机应用研究201027(2):429433(10)金松昌方滨兴树强,贾焰基于Hadoop的网络安全日志分析系统的设计与实现A全国计算机安全学术交流会论文集C,20lO:257262研究方案1。基于windows环境,完成

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号