《大数据》第4章大数据挖掘工具课件

资源描述

《《大数据》第4章大数据挖掘工具课件》由会员分享，可在线阅读，更多相关《《大数据》第4章大数据挖掘工具课件（36页珍藏版）》请在金锄头文库上搜索。

1、,大数据,BIG DATA,习题,of,44,2,4.1 Mahout,大数据配套PPT课件,Mahout 简介,定义：Apache Mahout 是一个由Java语言实现的开源的可扩展的机器学习算法库,2008年之前,2010年以后,Apache Lucene开源搜索引擎的子项目实现Lucene框架中的聚类以及分类算法吸纳协调过滤项目Taste成为独立子项目,发展历史,成为Apache顶级项目实现聚类、分类和协同过滤等机器学习算法既可以单机运行也可在Hadoop平台上运行,目标：机器学习平台，提供类似R的DSL以支持线性代数运算（如分布式向量计算）、大数据统计等基本功能,驱象人,of

2、,44,3,4.1 Mahout,大数据配套PPT课件,Mahout在各平台支持的机器学习算法,of,44,4,4.1 Mahout,大数据配套PPT课件,1.下载Mahout安装包,2. 解压并安装Mahout,3. 启动并验证Mahout,安装环境：Linux操作系统（CentOS 6.5 ）、 Hadoop平台（Hadoop 2.5.1）,镜像网站,of,44,5,4.1.1 Mahout 安装,4.1 Mahout,大数据配套PPT课件,同一个簇中对象具有高相似度,无监督学习算法,Canopy、k-means、模糊k-means、流k-means和谱聚类等都是聚类算法,本节重点,of,

3、44,6,4.1.2 聚类算法,4.1 Mahout,大数据配套PPT课件,基于Mahout命令运行k-means算法,12个二维数据,1 10 1 11 2 10 2 11 10 1 10 2 ,运行聚类算法,（1.5，10.5）（10.5, 1.5 ）（10.5,10.5 ）,聚类中心坐标,以上述3个坐标为中心，半径为（0.5,0.5），生成3个聚类，每个聚类4个成员,3次迭代,of,44,7,4.1 Mahout,大数据配套PPT课件,基于Mahout API运行k-means算法,给出初始聚类中心,1 10 10 1 10 10,调用Mahout API运行k-means聚类算法,

4、指定Hadoop配置信息、输入数据、初始聚类中心，迭代2次得到聚类结果,of,44,8,4.1 Mahout,大数据配套PPT课件,基于多维输入数据运行k-means算法,60维数据样本,600条60维趋势数据（600行60列）表达了正常、循环、渐增、渐减、向上偏移和向下偏移6类趋势每类100条,每类取一条做初始聚类中心运行KmeansDemo类将计算出的聚类中心数据导入到Excel文件,6个聚类中心所代表的趋势曲线,of,44,9,4.1 Mahout,大数据配套PPT课件,考察已被分类的样本数据，学习训练分类规则,有监督学习算法,进行输入数据的类别判定,分类预测,垃圾邮件检测,of

5、,44,10,4.1.3 分类算法,4.1 Mahout,大数据配套PPT课件,逻辑回归算法,Mahout下基于随机梯度下降（SGD）实现的逻辑回归（Logistic Regression）算法是一种二元分类算法，只能在单机上运行，适合分类算法的入门学习。,可视化表达,训练学习,模型评估,of,44,11,4.1 Mahout,大数据配套PPT课件,朴素贝叶斯算法,新闻网页数据,数据清洗,训练分类模型,新闻类别判定,共53条测试数据,正确分类51条,未正确分类2条,of,44,12,4.1 Mahout,大数据配套PPT课件,通过收集大量用户（协同）的喜好信息，以自动预测（过滤）用户感兴趣的商

6、品,协同过滤算法,基于物品的协同过滤算法,基于ALS的矩阵分解算法,计算物品相似性矩阵,通过矩阵分解进行预测,of,44,13,4.1.4 协同过滤算法,4.1 Mahout,大数据配套PPT课件,基于物品的协同过滤算法,用户评分矩阵,物品相似性矩阵,用户评分矩阵（补入预测评分）,of,44,14,4.1 Mahout,大数据配套PPT课件,基于物品的协同过滤算法实现代码,public class ItemCFDemo extends Configured implements Tool public static void main(String args) throws Excepti

7、on ToolRunner.run(new Configuration(), new ItemCFDemo(), args); Override public int run(String args) throws Exception Configuration conf = getConf(); try FileSystem fs = FileSystem.get(conf); String dir=/itemcfdemo; if (!fs.exists(new Path(dir) System.err.println(Please make director /itemcfdemo); r

8、eturn 2; String input=dir+/input; if (!fs.exists(new Path(input) System.err.println(Please make director /itemcfdemo/input); return 2; String output=dir+/output; Path p = new Path(output); if (fs.exists(p) fs.delete(p, true); ,String temp=dir+/temp; Path p2 = new Path(temp); if (fs.exists(p2) fs.del

9、ete(p2, true); RecommenderJob recommenderJob = new RecommenderJob(); recommenderJob.setConf(conf); recommenderJob.run(new String-input,input, -output,output, -tempDir,temp, -similarityClassname, TanimotoCoefficientSimilarity.class.getName(), -numRecommendations, 4); catch (Exception e) e.printStackT

10、race(); return 0; ,of,44,15,4.1 Mahout,大数据配套PPT课件,基于ALS的矩阵分解算法,用户特征矩阵U,物品特征矩阵M,预测评分矩阵A_k,用户评分矩阵A,用户评分矩阵U,用户评分矩阵M,A=UMT,预测评分矩阵A_k,of,44,16,习题,of,44,17,4.2 Spark MLlib,大数据配套PPT课件,MLlib支持的机器学习算法,MLlib,运行在Spark平台上专为在集群上并行运行而设计,内存中更快地实现多次迭代，适用于大规模数据集,of,44,18,4.2 Spark MLlib,大数据配套PPT课件,import org.apache.

11、spark.mllib.clustering.KMeans, KMeansModel import org.apache.spark.mllib.linalg.Vectors / Load and parse the data val data = sc.textFile(data/mllib/points.txt) val parsedData = data.map(s = Vectors.dense(s.split(s+).map(_.toDouble).cache() / Cluster the data into three classes using KMeans val k = 3

12、 val numIterations = 20 val clusters = KMeans.train(parsedData, k, numIterations) for(c - clusters.clusterCenters) println(c) clusters.predict(Vectors.dense(10,10) / Evaluate clustering by computing Within Set Sum of Squared Errors val WSSSE = puteCost(parsedData) println(Within Set Sum of Squared E

13、rrors = + WSSSE),1.5,10.5 10.5,1.5 10.5,10.5 2 Within Set Sum of Squared Errors = 6.000000000000057,实现代码,输出结果,与Mahout下的k-means聚类应用相比，无论在代码量、易用性及运行方式上，MLlib都具有明显的优势,of,44,19,4.2.1 聚类算法,4.2 Spark MLlib,大数据配套PPT课件,回归算法和分类算法都是有监督的学习，分类算法预测的结果是离散的类别，而回归算法预测的结果是连续的数值,线性回归最常用的算法之一，使用输入值的线性组合来预测输出值类LinearR

14、egressionWithSGDMLlib实现线性回归算法的常用类之一，基于随机梯度下降实现线性回归,输入函数,y=0.5*x1+0.2*x2,输入数据,weights: 0.5000000000539042,0.1999999999989402, intercept:0.0 training Mean Squared Error = 9.576567731363342E-20,输出结果,of,44,20,4.2.2 回归算法,4.2 Spark MLlib,大数据配套PPT课件,0,1 0 0 0,2 0 0 0,3 0 0 0,4 0 0 1,0 1 0 1,0 2 0 1,0 3 0 1

15、,0 4 0 2,0 0 1 2,0 0 2 2,0 0 3 2,0 0 4,Scala代码,加载训练数据文件,解析每行数据,训练模型,预测分类,Vector(0 0 9) s label is 2.0 Accuracy: 1.0,输出程序,of,44,21,4.2.3 分类算法,4.2 Spark MLlib,大数据配套PPT课件,先加载了训练数据文件，然后解析每行数据，并将其转换为Rating对象定义特征矩阵的维度rank和算法迭代次数numIterations 调用ALS的类方法train()，根据训练数据ratings学习出评分模型调用recommendProductsForUsers()向用户推荐指定个数的物品,MLlib中支持的是基于模型的协同过滤，即交替最小二乘（ALS）算法,依旧以4.1.4节中用户物品数据为例：,of,44,22,4.2.4 协同过滤算法,习题,of,44,23,4.3 其他数据挖掘工具,大数据配套PPT课件,Mahout Spark MLlib,提供标准算法，无法满足个性化需求,提供的并行化机器学习算法数量有限,SystemML,GraphLab,Parameter Server,WEKA,scikit-learn,基于R语言的机器学习库,H2O

展开阅读全文

《大数据》第4章 大数据挖掘工具课件

《大数据》第4章大数据挖掘工具课件