大数据十大经典算法kNN讲解.ppt

资源描述

《大数据十大经典算法kNN讲解.ppt》由会员分享，可在线阅读，更多相关《大数据十大经典算法kNN讲解.ppt（15页珍藏版）》请在金锄头文库上搜索。

1、KNN K最近邻分类算法 K NearestNeighborClassification KNN算法怎么来的 KNN算法是怎么来的猜猜看最后一行未知电影属于什么类型的电影 KNN算法是怎么来的猜猜看最后一行未知点属于什么类型的点 KNN算法是怎么来的想一想下面图片中只有三种豆有三个豆是未知的种类如何判定他们的种类 1968年 Cover和Hart提出了最初的近邻法最近邻算法提供一种思路即未知的豆离哪种豆最近就认为未知豆和该豆是同一种类由此我们引出最近邻算法的定义为了判定未知样本的类别以全部训练样本作为代表点计算未知样本与所有训练样本的距离并以最近邻者的类别作

2、为决策未知样本类别的唯一依据但是最近邻算法明显是存在缺陷的我们来看一个例子 KNN算法是怎么来的问题有一个未知形状X 图中绿色的圆点如何判断X是什么形状 K 最近邻算法显然通过上面的例子我们可以明显发现最近邻算法的缺陷对噪声数据过于敏感为了解决这个问题我们可以可以把位置样本周边的多个最近样本计算在内扩大参与决策的样本量以避免个别数据直接决定决策结果由此我们引进K 最近邻算法 KNN算法是用来干什么的 K 最近邻算法是最近邻算法的一个延伸基本思路是选择未知样本一定范围内确定个数的K个样本该K个样本大多数属于某一类型则未知样本判定为该类型下面借助图形解释一下

3、 KNN算法的实现步骤算法步骤 step 1 初始化距离为最大值step 2 计算未知样本和每个训练样本的距离diststep 3 得到目前K个最临近样本中的最大距离maxdiststep 4 如果dist小于maxdist 则将该训练样本作为K 最近邻样本step 5 重复步骤2 3 4 直到未知样本和所有训练样本的距离都算完step 6 统计K个最近邻样本中每个类别出现的次数step 7 选择出现频率最大的类别作为未知样本的类别 KNN算法的缺陷观察下面的例子我们看到对于位置样本X 通过KNN算法我们显然可以得到X应属于红点但对于位置样本Y 通过KNN算法我们似乎得到了Y应属于

4、蓝点的结论而这个结论直观来看并没有说服力 KNN算法的具体实现由上面的例子可见该算法在分类时有个重要的不足是当样本不平衡时即一个类的样本容量很大而其他类样本数量很小时很有可能导致当输入一个未知样本时该样本的K个邻居中大数量类的样本占多数但是这类样本并不接近目标样本而数量小的这类样本很靠近目标样本这个时候我们有理由认为该位置样本属于数量小的样本所属的一类但是 KNN却不关心这个问题它只关心哪类样本的数量最多而不去把距离远近考虑在内因此我们可以采用权值的方法来改进和该样本距离小的邻居权值大和该样本距离大的邻居权值则相对较小由此将距离远近的因素也考虑在内

5、避免因一个样本过大导致误判的情况 KNN算法的缺陷从算法实现的过程大家可以发现该算法存两个严重的问题第一个是需要存储全部的训练样本第二个是需要进行繁重的距离计算量对此提出以下应对策略 KNN算法的改进分组快速搜索近邻法其基本思想是将样本集按近邻关系分解成组给出每组质心的位置以质心作为代表点和未知样本计算距离选出距离最近的一个或若干个组再在组的范围内应用一般的knn算法由于并不是将未知样本与所有样本计算距离故该改进算法可以减少计算量但并不能减少存储量 KNN算法的改进压缩近邻算法利用现在的样本集采取一定的算法产生一个新的样本集该样本集拥有比原样本集少的多

6、的样本数量但仍然保持有对未知样本进行分类的能力基本思路定义两个存储器一个用来存放生成的样本集称为output样本集另一个用来存放原来的样本集称为original样本集 1 初始化 output样本集为空集原样本集存入original样本集从original样本集中任意选择一个样本移动到output样本集中 2 在original样本集中选择第i个样本并使用output样本集中的样本对其进行最近邻算法分类若分类错误则将该样本移动到output样本集中若分类正确不做任何处理 3 重复2步骤直至遍历完original样本集中的所有样本 output样本集即为压缩后的样本集通过这种方式也能减少算法的计算量但仍然无法减少存储量

展开阅读全文