企业级大数据分析平台实践案例课件

资源描述

《企业级大数据分析平台实践案例课件》由会员分享，可在线阅读，更多相关《企业级大数据分析平台实践案例课件（71页珍藏版）》请在金锄头文库上搜索。

1、企业级大数据分析平台实践案例企业级大数据解决方案企业级hadoop高可用HDFS集群企业级大数据分析平台Hive企业级大数据数据仓库Hbase企业级数据流实时导入工具Flume企业级关系数据库迁移工具sqoopSqoop根据数据库表结构自动创建class文件，提交到mapreduce框架上运行大数据生态链的常用工具pig-精短强悍的数据整理清洗工具spark-基于内存的流式数据分析工具，内置机器学习库oozie-任务自动化调度工具kafka-跨平台的数据传输工具，支持各种传输协议和加密压缩等功能impala-类似hive的数据分析工具，支持SQL查询语言，速度更快tez-优化mapreduce

2、计算路径的计算框架kudu-一种更快速的数据分析平台solr-企业级搜索引擎企业级hadoop集群搭建准备准备至少3台联网的主机，单个主机至少4G内存，10G磁盘剩余空间。分别安装Hanwate_Bigdata_OS_7_Firefly操作系统，该系统整合了大数据生态链的常用工具。按照后面的向导，分别在每台主机上安装相应的软件组件，并配置其角色，启动相应的服务。分布式hadoop集群的主机角色主机名IP地址角色组件master1192.168.X.3masterNamenode Datanode NodeManagermaster2192.168.X.4masterSecondaryNa

3、menode ResourceManager Datanode NodeManagerslave1192.168.X.5slaveJobHistoryServer Datanode NodeManager伪分布式hadoop集群的主机角色主机名IP地址角色组件master1192.168.X.3masterNamenode Datanode NodeManagermaster2192.168.X.3masterSecondaryNamenode ResourceManager Datanode NodeManagerslave1192.168.X.3slaveJobHistoryServer

4、Datanode NodeManager修改主机地址和主机名每台主机分别修改IP地址和主机名，例如在master1上:修改网卡配置文件/etc/sysconfig/network-scripts/ifcfg-xxxBOOTPROTO=none IPADDR=191.168.X.3 GATEWAY=192.168.X.1 NETMASK=255.255.255.0主机名配置文件为/etc/hostname，例如在master1上内容为：master1配置主机名映射在所有节点上修改/etc/hosts:（文件末尾追加）191.168.X.3191.168.X.4191.168.X.5master1

5、 master2 slave1伪分布式集群的配置：191.168.X.3master1 master2 slave1应用配置文件所有主机同步/etc/hosts重新启动服务器#reboot检查主机名和其他节点是否可以访问#for host in master1 master2 slave1 doping-c1$hostdone配置JAVA环境变量在/etc/profile 文件末尾追加export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.151-1.b12.el7_4.x86_64/jreexport CLASSPATH=.:$CLASS

6、PATH:$JAVA_HOME/lib export PATH=$PATH:$JAVA_HOME/bin保存文件后执行命令使文件生效#source/etc/profile集群搭建根据主机角色在不同的节点上安装软件根据集群规划对各个节点上的服务进行安装和配置配置集群所需的配置文件（所有节点必须配置而且保持一致）-配置文件路径为/etc/hadoop/conf配置集群slaves增加slave节点#vim/etc/hadoop/conf/slaves配置集群core-site.xmlNameValue作用fs.defaultFShdfs:/master1:8020HDFS的访问入口hadoop.t

7、mp.dir/usr/hdp/tmphadoop文件系统依赖的基础配置配置集群 hdfs-site.xmlNameValue作用dfs.namenode.name.dir/hadoop/hdfs/namenamenode数据的存放位置dfs.datanode.data.dir/hadoop/hdfs/datadatanode数据块的存放位置dfs.replication3hdfs的文件备份系数，伪分布式集群只能为1创建HDFS需要用到的Linux目录#mkdir-p/usr/hdp/tmp#mkdir-p/hadoop/hdfs/data,name#chown-R hdfs:hadoop/ha

8、doop#chown-R hdfs:hadoop/usr/hdp/tmp初始化hdfs文件系统在master1 上操作：#sudo-u hdfs$hdfs namenode-format以hdfs账户初始化hdfs文件系统启动hdfs文件系统启动master1节点上的服务：#systemctl start hadoop-hdfs-namenode#systemctl start hadoop-hdfs-datanode启动master2节点上的服务：#systemctl start hadoop-hdfs-secondarynamenode#systemctl start hadoop-hdf

9、s-datanode启动slave1节点上的服务：#systemctl start hadoop-hdfs-datanode验证方式可以通过systemctl status xxx 来查看服务的状态以root身份运行jps分别会看到master1显示：master2显示：slave1显示：访问NameNode WEB后台，比如192.168.121.2:50070为普通用户创建hdfs工作目录使用linux管理员创建新用户#useradd hadoop切换成HDFS管理员#su-hdfs创建普通用户的目录$hadoop fs-mkdir-p/user/hadoop$hadoop fs-chow

10、n hadoop/user/hadoop$exit使用普通用户验证hdfs工作目录#su-hadoop$hadoop fs-mkdir input$hadoop fs-ls软件排错参考日志hdfs组件的日志/var/log/hadoop-hdfs/*.log/var/log/hadoop-hdfs/*.outyarn组件的日志/var/log/hadoop-yarn/*.log/var/log/hadoop-yarn/*.outmapreduce组件的日志/var/log/hadoop-mapreduce/*.log/var/log/hadoop-mapreduce/*.out准备运行分布式任

11、务的目录#su hdfs$hadoop fs-mkdir/tmp$hadoop fs-chmod 1777/tmp$hadoop fs-mkdir-p/var/log/hadoop-yarn$hadoop fs-chown yarn:mapred/var/log/hadoop-yarn$hadoop fs-mkdir/user/history$hadoop fs-chmod 1777/user/history$hadoop fs-chown mapred:hadoop/user/history配置yarn-site.xmlNameValue作用yarn.resourcemanager.host

12、namemaster2指定yarn任务管理器的入口yarn.nodemanager.aux-servicesmapreduce_shuffle为mapreduce分配yarn服务yarn.nodemanager.local-dirsfile:/hadoop/yarn/localnodemanager本机计算任务的临时文件yarn.nodemanager.log-dirs/var/log/hadoop-yarn/containersnodemanager日志输出yarn.nodemanager.remote-app-log-dir/var/log/hadoop-yarn/apps远程任务的

13、输出yarn.log-aggregation-enabletrue日志汇集配置yarn-site.xml。NameValue作用yarn.scheduler.minimum-allocation-mb511单个任务可申请的最小内存资源量yarn.scheduler.maximum-allocation-mb2049单个任务可申请的最大内存资源量yarn.nodemanager.vmem-pmem-ratio4每使用1MB物理内存，最多可用的虚拟内存数yarn.nodemanager.vmem-check-enabledfalse针对虚拟内存监控的开关注：以上设置内存值情况为MR任务因内存

14、问题崩溃即可据此设置，值不唯一配置yarn-site.xmlNameValue作用yarn.application.classpath$HADOOP_CONF_DIR,yarn运行所需环/usr/hdp/2.6.3.0-235/hadoop/*,境变量/usr/hdp/2.6.3.0-235/hadoop/lib/*,/usr/hdp/2.6.3.0-235/hadoop-hdfs/*,/usr/hdp/2.6.3.0-235/hadoop-hdfs/lib/*,/usr/hdp/2.6.3.0-235/hadoop-yarn/*,/usr/hdp/2.6.3.0-235/hadoop-yar

15、n/lib/*,/usr/hdp/2.6.3.0-235/hadoop-mapreduce/*,/usr/hdp/2.6.3.0-235/hadoop-mapreduce/lib/*,/usr/hdp/2.6.3.0-235/hadoop-httpfs/*,/usr/hdp/2.6.3.0-235/hadoop-httpfs/lib/*配置mapred-site.xmlNameValue作用mapreduce.framework.nameyarn分配mapreduce框架mapreduce.jobhistory.addressslave1:10020historyserver地址mapredu

16、ce.jobhistory.webapps.addressslave1:19888Historyserver web端口yarn.app.mapreduce.am.staging-dir/useryarn任务的临时输出目录mapreduce.application.classpath(较长，见上一页 yarn.application.classpath)MapReduce需要的环境变量配置mapred-site.xmlNameValue作用mapreduce.map.java.opts-Xmx1024M运行 Map 任务的 JVM 参数mapreduce.map.memory.mb31Container 这个进程的最大可用内存大小mapreduce.reduce.java.opts-Xmx1024M运行 Reduce 任务的 JVM 参数mapreduce.reduce.memory.mb63Container 这个进程的最大可用内存大小注：以上设置内存值情况为MR任务因内存问题卡死即可据此设置，值不唯一配置yarn的linux本地目录#touch/etc/hadoop/conf

展开阅读全文

企业级大数据分析平台实践案例课件

最新文档