spark随机森林算法原理源码分析及案例实战

上传人:枫** 文档编号:487203890 上传时间:2022-10-05 格式:DOCX 页数:12 大小:19.34KB
返回 下载 相关 举报
spark随机森林算法原理源码分析及案例实战_第1页
第1页 / 共12页
spark随机森林算法原理源码分析及案例实战_第2页
第2页 / 共12页
spark随机森林算法原理源码分析及案例实战_第3页
第3页 / 共12页
spark随机森林算法原理源码分析及案例实战_第4页
第4页 / 共12页
spark随机森林算法原理源码分析及案例实战_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《spark随机森林算法原理源码分析及案例实战》由会员分享,可在线阅读,更多相关《spark随机森林算法原理源码分析及案例实战(12页珍藏版)》请在金锄头文库上搜索。

1、Spark随机森林算法原理、源码分析及案例实战在IBMBluemix云平台上开发并部署您的下一个应用。开始您的试用引言Spark内存计算框架在大数据处理领域内占有举足轻重的地位,2014年Spark风靡IT界,Twitter数据显示Spark已经超越Hadoop、Yarn等技术,成为大数据处理领域中最热门的技术,如图1所示。2015年6月17日,IBM宣布它的“百万数据工程师计划”,承诺大力推进ApacheSpark项目,并称该项目为“以数据为主导的,未来十年最为重要的新的开源项目”,计划投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目,并将为Spark开源生态系统

2、无偿提供突破性的机器学习技术IBMSystemML。从中不难发现,机器学习技术是IBM大力支持Spark的一个重要原因,这是因为Spark是基于内存的,而机器学习算法内部实现几乎都需要进行迭代式计算,这使得Spark特别适用于分布式环境下的机器学习。本文将对机器学习领域中经典的分类和回归算法随机森林(RandomForests)进行介绍。首先对随机森林算法的核心原理进行介绍,接着介绍其在Spark上的实现方式并对其源码进行分析,最后给出一个案例说明随机森林算法在实际项目中的应用。后续相关内容介绍全部以分类角度进行,回归预测与分类在算法上并没有太多的差异,本文旨在理解随机森林在Spark上的实现原理。图1.Spark与其它大数据处理工具的活跃程度比较回页首环境要求操作系统:Linux,本文采用的Ubuntu10.04,大家可以根据自己的喜好使用自己擅长的Linux发行版Java与Scala版本:Scala2.10.4,Java1.7Spark集群环境(3台):Hadoop2.4.1+Spark1.4.0,Spark集群搭建方式参见本人博客:http:/

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 营销创新

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号