《Hadoop项目实战教程68Mahout数据挖掘工具》由会员分享,可在线阅读,更多相关《Hadoop项目实战教程68Mahout数据挖掘工具(9页珍藏版)》请在金锄头文库上搜索。
1、HadoopHadoop大数据解决方案进阶应用大数据解决方案进阶应用Hadoop讲师:迪伦(北风网版权所有)Mahout数据挖掘工具 (4)q Apache Mahout优点q Mahout安装q Mahout测试课程目标Apache Mahout优点q 技术社区活跃q 良好的扩展性和容错性 q 文档化好,实例丰富 q 100%源代码开源 q 易于使用Mahout安装q 下载: http:/ 上传并解压Mahout安装q 环境变量配置,修改.bashrc,添加如下内容:q 使配置生效 $ source .bashrc q 几个重要的环境变量 JAVA_HOME MAHOUT_JAVA_HOME
2、 HADOOP_CONF_DIR MAHOUT_LOCAL MAHOUT_CONF_DIR MAHOUT_HEAPSIZEMahout安装q 验证安装Mahout测试q 下载测试数据 $ wget http:/archive.ics.uci.edu/ml/databases/synthetic_control/synthetic _control.data q 启动hadoop集群 $ start-dfs.sh $ start-mapred.sh q 上传测试数据到HDFS $ hadoop fs -mkdir testdata $ hadoop fs -put synthetic_control.data testdataMahout测试q 运行k-means算法$ mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job 启动12个MapReduce Job任务欢迎访问我们的官方网站