实习报告_实习总结06

资源描述

《实习报告_实习总结06》由会员分享，可在线阅读，更多相关《实习报告_实习总结06（6页珍藏版）》请在金锄头文库上搜索。

1、成绩信息与电气工程学院实习报告实习名称毕业实习实习时间实习地点学生姓名学生学号专业班级指导教师二15 年 5 月 15 日实习目的在这段时间的实习中主要对即将进行的毕业设计做准备，毕业设计的前期调研分析，对 Hadoop 平台进行相关了解，对 mapreduce 编程模型进行了解学习，了解与 Hadoop 相关的 Linux 命令等。实习内容背景当代，人们的生活己经慢慢从过去的 PC 时代步入了移动互联网时代，各行各业的信息正在不断的累积，数据规模飞速增长，如何有效的管理、高效分析这些数据成为了新的研究热点。图像作为一种广泛使用的基本的多媒体信息，不论是在科学技术还是日常生活等各个方面

2、都涉及到图像数据。与此同时人们感到要在海量的图像中寻找到自己所需要的图像变得越来越困难，理论源于实践，于是人们开始对图像检索进行研究，目前图像检索已经成为了当今计算机研究领域的一个研宄热点。图像检索就是根据对图像内容的描述，在图像数据库中查找具有描述特征或者包含与描述特征最相似的特征的图像。图像内容主要包括视觉内容和信息内容。视觉特征比如形状、颜色、纹理等属于图像的物理表示；信息内容即图像的语义，如主题、场景、尺寸、年代等。传统的基于单节点架构的图像检索系统已经无法应对大数据时代海量图像的存储和计算需求，此时，Google 主要采用 GFS 分布式文件系统来存储海量数据，并用 MapReduc

3、e 模型进行分布式计算，用 BigTable 替代了传统的关系数据库，它是一种基于键值对型的非关系数据库。目前图像检索的发展受到图像处理和人工智能等方面技术的限制为了实现自动化、智能化、通用的图像检索系统，将的分布式框架应用于图像检索领域可以实现一个高效、稳定易扩展的图像检索系统。图像检索应用广泛，例如外观专利图像检索、医学图像检索、指纹人脸识别等。此外，图像检索还是视频检索的基础。 Hadoop 平台介绍Hadoop 是 Apache 软件基金会组织下的一个幵源项目，它采纳 Google 的GFS 和 MapReduce 思想实现了 HDFS 和 MapReduce 编程框架，可以在廉价的机

4、器上部署分布式集群，HDFS 用于分布式存储大数据并用 MapReduce 编写并行计算程序，Hadoop 就提供了自己的语言 MapReduce 来分配和调度并最终总结处理结果。Hadoop 是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 Hadoop 的几项优点高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。高扩展性。Hadoop 是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。高效性。Hadoop 能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速

5、度非常快。高容错性。Hadoop 能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。低成本。与一体机、商用数据仓库以及 Yonghong Z-Suite 等数据集市相比，hadoop 是开源的，项目的软件成本因此会大大降低。Hadoop 带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C+。R 是 GNU 的一个开源工具，具有 S 语言血统，擅长统计计算和统计制图。由 Revolution Analytics 发起的一个开源项目 RHadoop 将 R 语言与 Hadoop 结合在一起，很好发

6、挥了 R 语言特长。主要子项目Hadoop Common: 在 0.20 及以前的版本中，包含 HDFS、MapReduce 和其他项目公共内容，从 0.21 开始 HDFS 和 MapReduce 被分离为独立的子项目。HDFS：Hadoop 分布式文件系统 (Distributed File System) HDFS (Hadoop Distributed File System)。MapReduce：并行计算框架，0.20 前使用 org.apache.hadoop.mapred 旧接口，0.20 版本开始引入 org.apache.hadoop.mapreduce 的新 API。相

7、关项目HBase: 类似 GoogleBigTable 的分布式 NoSQL 列数据库。Hive：数据仓库工具，由 Facebook 贡献。Zookeeper：分布式锁设施，提供类似 GoogleChubby 的功能，由Facebook 贡献。Avro：新的数据序列化格式与传输工具，将逐步取代 Hadoop 原有的 IPC机制。使用到的主要项目介绍分布式文件系统 HDFSHDFS(Hadoop Distributed File System)是进行分布式计算的存储基础，它是 Hadoop 项目的核心子项目，它将海量数据分块存储于集群的相关联的多台计算机上，即可以加大存储容量，还实现了容错自

8、动进行分块复制。HDFS 被设计来运行于廉价的商用服务器集群之上，而不是专门设计某台超级计算机进行存储处理，节省了对硬件需求的开销。HDFS 基于流式的数据访问方式以及分块存储和本地化读取方式，能够加快数据处理的速度。但它无法高效存储大量的小文件也不支持多用户写入及任意修改系统中的文件。众所周知，在操作系统都有一个块的概念，文件以块的形式存储在磁盘中，在 HDFS 中也是把文件分块存储的，块的大小可以根据需求设定且可以存在同样的多个块，分块存储对于 HDFS 来说会有很多好处。首先就是可以在 HDFS 中存储任意大的文件了，而不会受到网络中单节点磁盘大小的限制，比如单节点存储 100TB 的数

9、据一般不可能，但是如果把它进行逻辑分块，再把各个块分别存储在集群的各个机器上就完全可以实现。其次，分块存储使得分布式文件系统能够通过复制提高容能力，当某个节点故障，就可以从其它的正常节点读取数据进行修复，系统稳定性也就得以提高。HDFS 体系结构中有两类节点，NameNode 和 DataNode，它们分别承担了Master 和 Worker 的任务。通常只有一个 NameNode 节点，对应还有一个SecondaryNameNode 节点用于 DataNode 节点故障或者更新恢复用，DataNode 节点是实际的任务执行节点，通常有多个，存储着数据块的副本，被客户端和NameNode 调用

10、，同时，它会通过心跳机制定时向 NameNode 节点发送所存储文件块信息，NameNode 也从此判断 DataNode 是否出现故障。节点是任务调度节点，它管理着整个文件系统的命名空间，并维护文件系统的文件目录树及其索引目录。 MapReduce 计算模型MapReduce 是一种编程模型，用于在大规模数据上进行并行计算，它非常简单、容易实现且扩展性强。实际上 MapReduce 就是“任务的分解和结果的汇总”，Map 把数据集切分为多个记录集分配成多个任务并行处理，处理结果经过一系列处洗牌操作，再通过 Reduce 操作把最终结果输出到分布式数据库中保存起来。MapReduce 计算模型

11、各个阶段的详细工作流程如下：Input:每个 Hadoop 任务通常需要提供 Map 和 Reduce 函数，并指明要处理数据的输入输出路径和其它一些运行参数。这个阶段会把输入目录下的大数据文件进行分片处理，将它们按照块大小划分为若干独立的数据块。并将这些数据库以对的格式读入。Map:将每个数据块作为一组键值对进行处理，该过程一般会调用用户自定义的 Map 函数来处理每一个键值对，生成一批新的中间值对，这些新的键值对的类型可以与输入的键值对不同。Shuffle&Sort:在阶段 Shuffle,通过 HTTP 为每个 Reduce 获得所有 Map输出中与之相关的键值对；而在 Sort 阶段，

12、框架将按照 key 的值对的输入 Reduce 进行分组，通常 Shuffle 和 Sort 两个阶段是同时进行的。Reduce:在这个阶段每个 Reducer 遍历 maper 产生的中间数据，对每一key 执行用户自定义的 Reducer 函数，输出新的键值对。Output:此阶段会把 Reduce 输出的结果根据实际的需求以某种格式输出到分布式文件系统的目录文件中。主要模块该系统主要包括了以下几个模块：图像数据存储：使用存储海量的图像数据；图像特征提取：利用平台对大规模的图像数据并行提取其视觉特征；特征数据聚类：对图像特征进行并行聚类并根据聚类结果量化；用户图像检索：根据量化结果计算相

13、似度来检索相似图像。参考文献1张学浪.基于 Hadoop 的海量图像检索关键技术研究D. 西北农林科技大学 20132陈永权.基于 Hadoop 的图像检索算法研究与实现D. 华南理工大学 2013 3黎光谱.改进 K-Means 聚类算法在基于 Hadoop 平台的图像检索系统中的研究与实现D. 厦门大学 20144黄宜华,苗凯翔 .深入理解大数据：大数据处理与编程实践M.北京：机械工业出版社，20145刘鹏,黄宜华 ,陈卫卫.实战 Hadoop：开启通向云计算的捷径.北京：电子工业出版社，2011 实习总结通过此次实习了解了毕业设计的相关软件和 Hadoop 平台，认识到了Hadoop 在处理大数据方面的优势。在知道需要 Linux 和 java 环境后，进行了Linux 系统安装和 java 环境的配置，过程中深刻认识到了配置对开发框架的重要性。对毕业设计进行了一些前期调研和分析，有了毕业设计的基本思路，为毕业设计打下基础。但对于毕业设计而言还是需要阅读更多的文献资料，也需要对毕业设计的内容进行更多的分析和仔细的研究才能完成毕业设计。指导教师评语及签字签字：年月日

展开阅读全文

实习报告_实习总结06

最新文档