spark随机森林算法原理源码分析及案例实战

资源描述

《spark随机森林算法原理源码分析及案例实战》由会员分享，可在线阅读，更多相关《spark随机森林算法原理源码分析及案例实战（12页珍藏版）》请在金锄头文库上搜索。

1、Spark随机森林算法原理、源码分析及案例实战在IBMBluemix云平台上开发并部署您的下一个应用。开始您的试用引言Spark内存计算框架在大数据处理领域内占有举足轻重的地位，2014年Spark风靡IT界，Twitter数据显示Spark已经超越Hadoop、Yarn等技术，成为大数据处理领域中最热门的技术，如图1所示。2015年6月17日，IBM宣布它的“百万数据工程师计划”，承诺大力推进ApacheSpark项目，并称该项目为“以数据为主导的，未来十年最为重要的新的开源项目”，计划投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目，并将为Spark开源生态系统

2、无偿提供突破性的机器学习技术IBMSystemML。从中不难发现，机器学习技术是IBM大力支持Spark的一个重要原因，这是因为Spark是基于内存的，而机器学习算法内部实现几乎都需要进行迭代式计算，这使得Spark特别适用于分布式环境下的机器学习。本文将对机器学习领域中经典的分类和回归算法随机森林(RandomForests)进行介绍。首先对随机森林算法的核心原理进行介绍，接着介绍其在Spark上的实现方式并对其源码进行分析，最后给出一个案例说明随机森林算法在实际项目中的应用。后续相关内容介绍全部以分类角度进行，回归预测与分类在算法上并没有太多的差异，本文旨在理解随机森林在Spark上的实现原理。图1.Spark与其它大数据处理工具的活跃程度比较回页首环境要求操作系统：Linux，本文采用的Ubuntu10.04，大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本：Scala2.10.4，Java1.7Spark集群环境（3台）：Hadoop2.4.1+Spark1.4.0，Spark集群搭建方式参见本人博客：http:/

展开阅读全文