hadoop集群配置(01)

上传人:re****.1 文档编号:479470 上传时间:2017-03-10 格式:DOCX 页数:34 大小:51.56KB
返回 下载 相关 举报
hadoop集群配置(01)_第1页
第1页 / 共34页
hadoop集群配置(01)_第2页
第2页 / 共34页
hadoop集群配置(01)_第3页
第3页 / 共34页
hadoop集群配置(01)_第4页
第4页 / 共34页
hadoop集群配置(01)_第5页
第5页 / 共34页
点击查看更多>>
资源描述

《hadoop集群配置(01)》由会员分享,可在线阅读,更多相关《hadoop集群配置(01)(34页珍藏版)》请在金锄头文库上搜索。

1、集 群 上 部 署 构 建 1)分布式计算开源框架 门实践其实参看 方文档已经能够很容易配置分布式框架运行环境了,不过这里既然写了就再多写一点,同时有一些细节需要注意的也说明一下,其实也就是这些细节会让人摸索半天。以单机跑,也可以配置集群跑,单机跑就不需要多说了,只需要按照 运行说明直接执行命令即可。这里主要重点说一下集群配置运行的过程。1 环境7 台普通的机器,操作系统都是 存和 不说了,反正 大特点就是机器在多不在精。须是 上的,这个切记。7 台机器的机器名务必不同,后续会谈到机器名对于 很大的影响。2 部署考虑正如上面我描述的,对于 集群来说,可以分成两大类角色:者主要配置 角色,负责总

2、管分布式数据和分解任务的执行,后者配置 角色,负责分布式数据存储以及任务的执行。本来我打算看看一台机器是否可以配置成 时也作为 用,不过发现在 始化的过程中以及行过程中机器名配置好像有冲突( 于 配置有些冲突,究竟是把机器名对应 在配置前面还是把应 在前面有点问题,不过可能也是我自己的问题吧,这个大家可以根据实施情况给我反馈)。最后反正决定一台 台 续复杂的应用开发和测试结果的比对会增加机器配置。3 实施步骤1. 在所有的机器上都建立相同的目录,也可以就建立相同的用户,以该用户的 径来做 安装路径。例如我在所有的机器上都建立了/2. 下载 解压到 。这里我是下载的 版本。此时 安装路径就是/3

3、. 解压后进入 录,主要需要修改以下文件:基础配置文件是 代码可以知道,默认建立一个 时候会建立 配置,然后再读入 配置(这个文件初始的时候配置为空),主要配置你需要覆盖的 系统级配置,以及你需要在你的 体的一些使用例如 参考文档)。以下是一个简单的 配置:你的 配置,机器名加端口,机器名加端口,默认临时路径,这个最好配置,如果在新增节点或者其他情况下莫名其妙的 动不了,就删除此文件中的 录即可。不过如果删除了 器的此目录,那么就需要重新执行 式化的命令。/大小,单位字节,后面会提到用处,必须是 512 的倍数,因为采用 文件完整性校验,默认配置 512 是 最小单元。5120000件只需要修

4、改一个参数:# to 置你的 径,记住一定要 本以上,免得莫名其妙出现问题。配置 者机器名,如果是机器名那么需要在/有所设置。配置的是 者机器名,同样如果是机器名需要在/有所设置。范例如下,我这里配置的都是 . 建立 每一台 信证书。由于 会通过动所有 以需要建立单向或者双向证书保证命令执行时不需要再输入密码。在 所有的 器上执行:t 行此命令的时候,看到提示只需要回车。然后就会在/面产生 证书文件,通过 (记得修改名称),例如:后执行 /立 件即可,可以打开这个文件看看,也就是 公钥作为 P 作为 时可以试验一下,从 经不需要密码了。由 向建立也是同样。为什么要反向呢?其实如果一直都是 动和

5、关闭的话那么没有必要建立反向,只是如果想在 可以关闭 需要建立反向。 5. 将 的 过 贝到每一个 同的目录下,根据每一个 不同修改其 6. 修改 :新增以下内容:(具体的内容根据你的安装路径修改,这步只是为了方便使用)行 使其生效。 7. 在 执行 是第一需要做的初始化,可以看作格式化吧,以后除了在上面我提到过删除了 录,否则是不需要再次执行的。 8. 然后执行 的 个命令可以直接执行,因为在6 中已经添加到了 径,这个命令是启动 部分,当然你也可以分开单独启动 别是 录下的 9. 检查 录,看看 志以及 志是否正常启动。 录看看 志以及 志是否正常。 么就直接执行 可。 以上步骤就可以启动

6、 分布式环境,然后在 机器进入 行 入路径和输出路径,就可以看到字数统计的效果了。此处的输入路径和输出路径都指的是 的路径,因此你可以首先通过拷贝本地文件系统中的目录到的方式来建立 的输入路径:中/本地路径,将会建立在 的路径,执行完毕以后可以通过 到 录已经存在,同时可以通过 ls 看里面的内容。输出路径要求是在 不存在的,当执行完那个 后,就可以通过 出路径看到其中的内容,具体文件的内容可以通过 件名称来查看。经验总结和注意事项(这部分是我在使用过程中花了一些时间走的弯路):1. 的几个 置文件不需要全部同步,如果确定都是通过 启动和关闭,那么 器上的配置不需要去维护。但如果希望在任意一台

7、机器都可以启动和关闭 么就需要全部保持一致了。 2. 器上的/必须把集群中机器都配置上去,就算在各个配置文件中使用的是 个吃过不少苦头,原来以为如果配成 不需要去配置 果发现在执行 时候总是卡住,在拷贝的时候就无法继续下去,不断重试。另外如果集群中如果有两台机器的机器名如果重复也会出现问题。 3. 如果在新增了节点或者删除节点的时候出现了问题,首先就去删除 后重新启动试试看,如果还是不行那就干脆把 除(意味着 的数据也会丢失),如果删除了 么就需要重新 4. 务个数以及 务个数配置。前面分布式文件系统设计提到一个文件被放入到分布式文件系统中,会被分割成多个 置到每一个的 ,默认 该是 64M,也就是说如果你放置到 的数据小于 64,那么将只有一个 时会被放置到某一个 ,这个可以通过使用命令:可以看到各个节点存储的情况。也可以直接去某一个 可以看到那些 数量将会直接影响到 个数。当然可以通过配置来设定 任务个数。个数通常默认和 要处理的同。也可以通过配置 数量或者配置 际的个数为:size

展开阅读全文
相关资源
相关搜索

当前位置:首页 > IT计算机/网络 > 云计算/并行计算

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号