基于MapReduce的K-Means算法设计与实现

上传人:ldj****22 文档编号:50963393 上传时间:2018-08-11 格式:PPTX 页数:19 大小:329.99KB
返回 下载 相关 举报
基于MapReduce的K-Means算法设计与实现_第1页
第1页 / 共19页
基于MapReduce的K-Means算法设计与实现_第2页
第2页 / 共19页
基于MapReduce的K-Means算法设计与实现_第3页
第3页 / 共19页
基于MapReduce的K-Means算法设计与实现_第4页
第4页 / 共19页
基于MapReduce的K-Means算法设计与实现_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《基于MapReduce的K-Means算法设计与实现》由会员分享,可在线阅读,更多相关《基于MapReduce的K-Means算法设计与实现(19页珍藏版)》请在金锄头文库上搜索。

1、基于MapReduce的K-Means算法的 设计与实现西南交通大学信息学院西南交通大学信息学院西南交通大学信息学院西南交通大学信息学院主讲人:杨浩主讲人:杨浩主讲人:杨浩主讲人:杨浩导师:李天瑞教授导师:李天瑞教授导师:李天瑞教授导师:李天瑞教授概要概要研究背景基于MapReduce的K-Means算法设计实验结果和分析K-Means简介研究背景研究背景大数据时代的来临数据呈现爆炸性增长传统的平台无法满足需求亟需新的平台云计算的出现天才般的MapReduce计算框架开源的Hadoop平台聚类算法和大数据数据越大,聚类效果越好K-MeansK-Means简介简介输入:聚类个数K,以及包含N个数

2、据待聚类数据集输出:聚类中心不再变化的K个聚类中心算法过程:1.从从数据集中随机选取K个数据作为中心2.测量所有数据到每个中心的距离,并把它归到最近的中心 的类3.重新计算已经得到的各个类的中心4.迭代23步直至新的中心与原中心的距离小于指定阈值, 算法结束K-MeansK-Means算法算法流程图流程图K-MeansK-Means示例示例基于基于MapReduceMapReduce的的K-MeansK-Means算法设计算法设计算法设计伪代码Map伪代码Partion伪代码Reduce伪代码OutputFormat伪代码算法算法设计设计job:计算新的聚类中心Map:输入:输出:Reduce

3、:输入:输出:迭代job,直至相连两次的聚类中心小于阈值流程图MapMap伪代码伪代码public void map(Object key, Text value,OutputCollector output, Reporter reporter) String line = value.toString().trim();int sort = 0;/聚类类别double minDis = Double.MAX_VALUE;for (int i = 1; i implements Partitioner Override public int getPartition(K key, V val

4、ue, int n) / TODO Auto-generated method stub return Math.abs(key.hashCode()%n; Override public void configure(JobConf arg0) / TODO Auto-generated method stub ReduceReduce伪代码伪代码public void reduce(IntWritable key, Iterator values,OutputCollector output, Reporter reporter) int rows = 0, i = 0;/rows表示数据

5、条数double records = new doubleCOLS;/COLS为全局变量,表示属性的个数while (values.hasNext() rows+;String tmp = values.next().toString();StringTokenizer itr = new StringTokenizer(tmp);i = 0;while (itr.hasMoreTokens() Override protected K generateActualKey(K key, V value) return null; 实验结果和分析实验结果和分析开发环境实验数据运行结果结果分析开发

6、环境开发环境 Red Hat Linux操作系统Hadoop开源软件,版本Hadoop-1.0.3节点数目:10节点配置:4个CPU,16核,内存12GJDK1.7.0Eclipse-SDK-4.2.1-linux-gtk实验数据实验数据数据集295个数据100个属性选取了3个聚类中心运行结果运行结果迭代前后的中心间的距离迭代次数距离10.416281752617621720.2261470651387958430.1643413181893543240.0891535211218527850.05741151849787401560.0297434007942915870.0278291782916929480.0302077319519657890.012126278742641175101.6540101356382944E-15运行结果运行结果迭代第5次的运行结果谢谢大家谢谢大家

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号