大数据实验报告.docx

上传人:汽*** 文档编号:552644523 上传时间:2023-02-14 格式:DOCX 页数:17 大小:11.66MB
返回 下载 相关 举报
大数据实验报告.docx_第1页
第1页 / 共17页
大数据实验报告.docx_第2页
第2页 / 共17页
大数据实验报告.docx_第3页
第3页 / 共17页
大数据实验报告.docx_第4页
第4页 / 共17页
大数据实验报告.docx_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《大数据实验报告.docx》由会员分享,可在线阅读,更多相关《大数据实验报告.docx(17页珍藏版)》请在金锄头文库上搜索。

1、课 程 实 验 报 告专 业 年 级 14级软件工程 课 程 名 称 大数据技术原理与应用 指 导 教 师 李均涛 学 生 姓 名 吴勇 学 号 20142205042026 实 验 日 期 2017.05.04 实 验 地 点 笃行楼B栋301 实 验 成 绩 教务处制2017年03月09日实验项目名称Liunx基本操作实验目的及要求1. 了解Liunx操作系统发展历史。2. 学习Liunx操作系统基本概念及操作。3. 学习Liunx操作系统用户及文件权限管理。4. Linux 目录结构及文件基本操作。实验内容1.实验楼环境介绍,常用 Shell 命令及快捷键,Linux 使用小技巧。2.L

2、inux 中创建、删除用户,及用户组等操作。Linux 中的文件权限设置。3.Linux 的文件组织目录结构,相对路径和绝对路径,对文件的移动、复制、重命名、编辑等操作。实验步骤1. Liunx输入输出命令。2. 使用touch命令创建文件夹,后缀都为txt。3. 学会在命令行中获取帮助。4. 输出图形字符。5. 查看用户。6. 创建新用户。7. 删除用户。8. 查看文件权限。9. 用ls A/Al/dl/AsSh查看文件。10. 变更文件所有者。11. 修改文件权限。12. 目录路径。13. 新建空白文件。14. 文件的复制、删除、移动、重命名。实验环境Liunx 操作系统实验结果与分析通过

3、学习Liunx操作系统的发展历史、基本操作、用户及文件权限管理以及Linux 目录结构及文件基本操作。是得我大致了解Liunx操作系统的使用,并且能够完成相应的练习。教师评语注:可根据实际情况加页课 程 实 验 报 告专 业 年 级 14级软件工程 课 程 名 称 大数据技术原理与应用 指 导 教 师 李均涛 学 生 姓 名 吴勇 学 号 20142205042026 实 验 日 期 2017.05.04 实 验 地 点 笃行楼B栋301 实 验 成 绩 教务处制2017年03月09日实验项目名称Hadoop的基本操作实验目的及要求1. Hadoop单机模式安装.2. Hadoop伪分布模式配

4、置部署.3. Hadoop介绍及1.X伪分布式安装.4. adoop2.X 64位编译.5. Hadoop2.X 64位环境搭建.实验内容1. hadoop三种安装模式介绍,hadoop单机模式安装,测试安装2. hadoop配置文件介绍及修改,hdfs格式化,启动hadoop进程,验证安装.3. Hadoop1.X伪分布安装, Hadoop介绍,Hadoop变量配置.4. Hadoop2.X 64位编译, 编译Hadoop2.X 64位, 编译Hadoop.5. 搭建环境, 部署Hadooop2.X, 启动Hadoop.实验步骤1. 用户及用户组, 添加用户及用户组, 添加sudo权限.2.

5、 安装及配置依赖的软件包, 安装openssh-server、java、rsync等, 配置ssh免密码登录.3. 下载并安装Hadoop, 下载Hadoop 2.6.0, 解压并安装, 配置Hadoop.4. 测试验证.5. 相关配置文件修改:修改core-site.xml:6. 格式化HDFS文件系统.7. Hadoop集群启动.8. 测试验证.9. 设置Host映射文件.10. 下载并解压hadoop安装包11. 在Hadoop-1.1.2目录下创建子目录.12. 启动hadoop.13. 编译Hadoop2.X 64位.14.使用yum安装sun.15. 部署Hadooop2.X.与H

6、adoop1.X类似。实验环境hadoop Xfce终端实验结果与分析通过本次实验,让我对Hadoop有所了解,但是在实验过程中出现许多问题。例如,不知道该如何下载java jdk,甚至如何创建文件夹目录下的文件,以及Hadoop的环境配置原理以及编译原理和方法。这些都是实验中出现的问题,但是通过自己查询,问同学,部分问题已经得到解决,但是还存在一部分就只能通过课后自学进行解决!通过上述的学习,让我对Hadoop的基本操作有了基础的掌握,包括Hadoop介绍及1.X伪分布式安装,adoop2.X 64位编译,Hadoop2.X 64位环境搭建等。教师评语注:可根据实际情况加页课 程 实 验 报

7、 告专 业 年 级 14级软件工程 课 程 名 称 大数据技术原理与应用 指 导 教 师 李均涛 学 生 姓 名 吴勇 学 号 20142205042026 实 验 日 期 2017.06.01 实 验 地 点 笃行楼B栋301 实 验 成 绩 教务处制2017年03月09日实验项目名称HDFS和MapReduce实验目的及要求1. HDFS原理及操作。2. MapReduce原理及操作。实验内容1. HDFS原理及操作。环境说明,HDFS原理,HDFS架构,HDFS读操作,HDFS写操作,测试例子2MapReduce原理及操作。 环境说明,MapReduce原理,Map过程,Reduce过程

8、,测试例子实验步骤1.HDFS原理及操作。1.1 环境说明。虚拟机操作系统: CentOS6.6 64位,单核,1G内存JDK:1.7.0_55 64位Hadoop:1.1.21.2 HDFS原理。HDFS(Hadoop Distributed File System)是一个分布式文件系统,是谷歌的GFS山寨版本。它具有高容错性并提供了高吞吐量的数据访问,非常适合大规模数据集上的应用,它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。1.3 HDFS架构。HDFS是Master和Slave的结构,分为NameNode、Secondary NameNode和DataNode三种角色。1.4

9、 HDFS读操作。客户端通过调用FileSystem对象的open()方法来打开希望读取的文件。1.5 HDFS写操作。客户端通过调用DistributedFileSystem的create()方法创建新文件。1.6测试例子1。 1.创建代码目录 2. 建立例子文件上传到HDFS中 3. 配置本地环境 4. 编写代码 5. 编译代码 6. 使用编译代码读取HDFS文件2. MapReduce原理及操作。 2.1环境说明。 虚拟机操作系统: CentOS6.6 64位,单核,1G内存JDK:1.7.0_55 64位Hadoop:1.1.22.2 MapReduce原理。Map 和Reduce。当

10、你向MapReduce 框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map 任务,然后分配到不同的节点上去执行,每一个Map 任务处理输入数据中的一部分,当Map 任务完成后,它会生成一些中间文件,这些中间文件将会作为Reduce 任务的输入数据。Reduce 任务的主要目标就是把前面若干个Map 的输出汇总到一起并输出。2.3 Map过程。每个输入分片会让一个map任务来处理,默认情况下,以HDFS的一个块的大小(默认为64M)为一个分片,当然我们也可以设置块的大小。map输出的结果会暂且放在一个环形内存缓冲区中(该缓冲区的大小默认为100M,由io.sort.mb属性控制),当该

11、缓冲区快要溢出时(默认为缓冲区大小的80%,由io.sort.spill.percent属性控制),会在本地文件系统中创建一个溢出文件,将该缓冲区中的数据写入这个文件。2.4 Reduce过程。Reduce会接收到不同map任务传来的数据,并且每个map传来的数据都是有序的。如果reduce端接受的数据量相当小,则直接存储在内存中(缓冲区大小由mapred.job.shuffle.input.buffer.percent属性控制,表示用作此用途的堆空间的百分比),如果数据量超过了该缓冲区大小的一定比例(由mapred.job.shuffle.merge.percent决定),则对数据合并后溢写

12、到磁盘中。 2.5测试例子。1 编写代码。2.编译代码。3.打包编译文件。4.解压气象数据并上传到HDFS中。 5. 运行程序。 6. 查看结果。实验环境虚拟机操作系统: CentOS6.6 64位,单核,1G内存JDK:1.7.0_55 64位Hadoop:1.1.2实验结果与分析实验分析:通过学习HDFS和MapReduce,了解其原理及操作,但是在实验过程中遇到很多问题,例如无法启动Hadoop、无法连接到Hadoop等问题,通过自己请教老师、同学以及网上自己动手查阅资料得以解决。明白其工作原理,从而进一步了解到Hadoop的运行机制与操作,更加了解大数据。教师评语注:可根据实际情况加页

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 其它相关文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号