sparkmlib算法使用有代码输入输出

上传人:cn****1 文档编号:487777959 上传时间:2023-07-26 格式:DOCX 页数:96 大小:2.23MB
返回 下载 相关 举报
sparkmlib算法使用有代码输入输出_第1页
第1页 / 共96页
sparkmlib算法使用有代码输入输出_第2页
第2页 / 共96页
sparkmlib算法使用有代码输入输出_第3页
第3页 / 共96页
sparkmlib算法使用有代码输入输出_第4页
第4页 / 共96页
sparkmlib算法使用有代码输入输出_第5页
第5页 / 共96页
点击查看更多>>
资源描述

《sparkmlib算法使用有代码输入输出》由会员分享,可在线阅读,更多相关《sparkmlib算法使用有代码输入输出(96页珍藏版)》请在金锄头文库上搜索。

1、目录第1章分类与回归61.1支持向量机61.1.1算算法描述和定定义61.1.2输输入参数和含含义61.1.3代代码展示61.1.4应应用场景61.2逻辑回归61.2.1算算法描述和定定义61.2.2输输入参数和含含义61.2.3代代码展示61.2.4应应用场景61.3线性回回归61.3.1算算法描述和定定义61.3.2输输入参数和含含义61.3.3代代码展示61.3.4应应用场景61.4朴素贝贝叶斯61.4.1算算法描述和含含义61.4.2输输入参数和含含义61.4.3代码展示61.4.4应应用场景61.5决策树树61.5.1算算法描述和定定义71.5.2输输入参数和含含义71.5.3代代码

2、展示71.5.4应应用场景71.6随机森森林71.6.1算算法描述和定定义71.6.2输输入参数和含含义71.6.33代码展示71.6.4应应用场景71.7梯度提提升树71.7.1算算法描述和定定义71.7.2输输入参数和含含义71.7.3代代码展示71.7.4应应用场景71.8保序回回归71.8.1算算法描述和定定义71.8.2输输入参数和含含义71.8.3代代码展示71.8.4应应用场景7第2章协同过过滤82.1算法描描述和定义82.2输入参参数和含义82.3代码展展示82.4应用场场景8第3章聚类93.1K-mmeans93.1.1算算法描述和定定义93.1.2输输入参数和含含义93.1

3、.3代代码展示93.1.4应应用场景93.2高斯混混合93.2.1算算法描述和定定义93.2.2输输入参数和含含义93.2.3代代码展示93.2.4应应用场景93.3快速迭迭代聚类(图图片)93.3.1算算法描述和定定义103.3.2输输入参数和含含义103.3.3代代码展示103.3.4应应用场景103.4三层贝叶斯斯概率模型103.4.1算算法描述和定定义103.4.2输输入参数和含含义1033.4.3代码展示103.4.4应应用场景103.5二分KK-meanns聚类103.5.1算算法描述和定定义103.5.2输输入参数和含含义103.5.3代代码展示103.5.4应应用场景103.6

4、流K-meanss103.6.1算算法描述和定定义103.6.2输输入参数和含含义103.6.3代代码展示103.6.4应应用场景10第4章降维算算法114.1奇异值分解解114.1.1算算法描述和定定义114.1.2输输入参数和含含义114.1.3代代码展示114.1.4应应用场景114.2主成分分分析(PCCA)114.2.1算算法描述和定定义114.2.2输输入参数和含含义114.2.3代代码展示114.2.4应应用场景11第5章统计125.1相关统统计125.1.1算算法描述和定定义125.1.22输入参数和和含义125.1.3代代码展示125.1.4应应用场景125.2分层采采样12

5、5.2.1算算法描述和定定义125.2.2输输入参数和含含义125.2.3代代码展示125.2.4应应用场景125.3假设检检验125.3.1算算法描述和定定义125.3.2输输入参数和含含义125.3.3代代码展示125.3.4应应用场景125.4流式显著性性测试125.4.1算算法描述和定定义125.4.2输输入参数和含含义125.4.3代代码展示125.4.4应应用场景125.5随机数数发生器125.5.1算算法描述和定定义135.5.2输输入参数和含含义135.5.3代代码展示135.5.4应应用场景135.6核密度度估计135.6.1算算法描述和定定义135.6.2输输入参数和含含义

6、135.6.3代代码展示135.6.4应应用场景13第6章特征抽抽取和变换146.1TF-IDDF146.1.1算算法描述和定定义146.1.2输输入参数和含含义146.1.3代代码展示146.1.4应应用场景146.2词到变变量146.2.1算算法描述和定定义146.2.2输输入参数和含含义146.2.3代代码展示146.2.4应应用场景146.3标准化化146.3.1算算法描述和定定义146.3.2输输入参数和含含义1466.3.3代码展示146.3.4应应用场景146.4正规化化146.4.1算算法描述和定定义146.4.2输输入参数和含含义146.4.3代代码展示146.4.4应应用场

7、景14第1章 分类与回归1.1 支持向量机1.1.1 算法描述和定义义神经网络与支持持向量机(包包含核方法)都都是非线性分分类模型。11986年,RRummellhart与与McCleellandd发明了神经经网络的学习习算法Bacck Proopagattion。后后来,Vappnik等人人于19922年提出了支支持向量机。神神经网络是多多层(通常是是三层)的非非线性模型,支支持向量机利利用核技巧把把非线性问题题转换成线性性问题。神经网络与支持持向量机一直直处于“竞争”关系。Scholkoopf是Vaapnik的的大弟子,支支持向量机与与核方法研究究的领军人物物。据Schholkoppf说,

8、Vaapnik当当初发明支持持向量机就是是想干掉神经网络(HHe wannted tto killl Neuural NNetworrk)。支持持向量机确实实很有效,一一段时间支持持向量机一派派占了上风。由于神经网络等等较新兴的机机器学习方法法的研究遇到到一些重要的的困难,比如如如何确定网网络结构的问问题、过学习习与欠学习问问题、局部极极小点问题等等,使得SVVM迅速发展展和完善,在在解决小样本本 、非线性性及高维模式式识别问题中中表现出许多多特有的优势势,并能够推推广应用到函函数拟合等其其他机器学习习问题中.从从此迅速的发发展起来 现在已已经在许多领领域(生物信信息学,文本本和手写识别别等)

9、都取得得了成功的应应用。在地球物理反演演当中解决非非线性反演也也有显著成效效,例如(支支持向量机在在预测地下水水涌水量问题题等)。现在在已知该算法法被被应用的的主要有:石石油测井中利利用测井资料料预测地层孔孔隙度及粘粒粒含量、天气气预报工作等等。通过核函数将特特征映射到其其他维度1.1.2 输入参数和含义义1.1.3 代码展示import java.text.SimplleDateeFormaatimport java.util.Date import org.aapachee.sparrk.mlllib.cllassifficatiion.SSVMModdel, SSVMWitthSGD i

10、mport org.aapachee.sparrk.mlllib.evvaluattion.BBinaryyClasssificaationMMetriccs import org.aapachee.sparrk.mlllib.liinalg.Vectoors import org.aapachee.sparrk.mlllib.reegresssion.LLabeleedPoinnt import org.aapachee.sparrk.mlllib.uttil.MLLUtilss import org.aapachee.sparrk.SpparkCoonf, SSparkCContexxt

11、val datta = MMLUtills.loaadLibSSVMFille(sc, /rooot/saample_libsvvm_datta.txtt)val spllits = dataa.randdomSpllit(Arrray(00.6, 00.4), seed = 11LL) val traainingg = spplits(0).caache() val tesst = ssplitss(1)val nummIteraationss = 100 val moddel = SVMWiithSGDD.traiin(traainingg, nummIteraationss)val sc

12、ooreAnddLabells = ttest.mmap pointt = vval sccore = modeel.preedict(pointt.feattures) (scoore, ppoint.labell) scoreAnndLabeels.taake(100).forreach(printtln)输出数据:(-8936556.246674885575,0.0) (5532166.115448872225,1.00) (-10307793.666282244523,00.0) (-6600118.436630396621,0.0) (4734944.147887767887,1.0

13、0) (4744844.847225418339,1.00) (6258966.117330549889,1.00) (-11798877.555679077898,00.0) (4591733.3311179720035,1.0) (5472688.194772424665,1.00)1.1.4 应用场景1.主要用来处处理分类问题题1.2 逻辑回归1.2.1 算法描述和定义义逻辑回归的模型型是一个非线线性模型,ssigmoiid函数,又又称逻辑回归归函数。但是是它本质上又又是一个线性性回归模型,因因为除去iggmoid映映射函数关系系,其他的步步骤,算法都都是线性回归归的。可以说说,逻辑回归

14、归,都是以线线性回归为理理论支持的。只只不过,线性性模型,无法法做到siggmoid的的非线性形式式,sigmmoid可以以轻松处理00/1分类问问题1.2.2 输入参数和含义义输入数据:1|2 1|3 1|4 1|5 1|6 0|7 0|8 0|9 0|10 0|111.2.3 代码展示代码展示:import org.aapachee.sparrk.mlllib.cllassifficatiion.LoogistiicRegrressioonWithhSGD import org.aapachee.sparrk.mlllib.liinalg.Vectoors import org.aapachee.sparrk.mlllib.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 市场营销

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号