《spark随机森林算法原理源码分析及案例实战》由会员分享,可在线阅读,更多相关《spark随机森林算法原理源码分析及案例实战(12页珍藏版)》请在金锄头文库上搜索。
1、Spark随机森林算法原理、源码分析及案例实战在IBMBluemix云平台上开发并部署您的下一个应用。开始您的试用引言Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为大数据处理领域中最热门的技术,如图1所示。2015年6月17日,IBM宣布它的“百万数据工程师计划”,承诺大力推进ApacheSpark项目,并称该项目为“以数据为主导的,未来十年最为重要的新的开源项目”,计划投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目,并将为Spark开源生态系统
2、无偿提供突破性的机器学习技术IBMSystemML。从中不难发现,机器学习技术是IBM大力支持Spark的一个重要原因,这是因为Spark是基于内存的,而机器学习算法内部实现几乎都需要进行迭代式计算,这使得Spark特别适用于分布式环境下的机器学习。本文将对机器学习领域中经典的分类和回归算法随机森林(RandomForests)进行介绍。首先对随机森林算法的核心原理进行介绍,接着介绍其在Spark上的实现方式并对其源码进行分析,最后给出一个案例说明随机森林算法在实际项目中的应用。后续相关内容介绍全部以分类角度进行,回归预测与分类在算法上并没有太多的差异,本文旨在理解随机森林在Spark上的实现原理。图1.Spark与其它大数据处理工具的活跃程度比较回页首环境要求操作系统:Linux,本文采用的Ubuntu10.04,大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本:Scala2.10.4,Java1.7Spark集群环境(3台):Hadoop2.4.1+Spark1.4.0,Spark集群搭建方式参见本人博客:http:/