数据挖掘实验报告－金锄头文库

资源描述

《数据挖掘实验报告》由会员分享，可在线阅读，更多相关《数据挖掘实验报告（10页珍藏版）》请在金锄头文库上搜索。

1、大数据理论与技术读书报告 -K最近邻分类算法指导老师：陈莉学生姓名: 李阳帆学号： 015316 专业：计算机技术日期： 0年月31日摘要数据挖掘就是机器学习领域内广泛研究得知识领域，就是将人工智能技术与数据库技术紧密结合,让计算机帮助人们从庞大得数据中智能地、自动地提取出有价值得知识模式，以满足人们不同应用得需要。近邻算法（NN）就是基于统计得分类方法，就是大数据理论与分析得分类算法中比较常用得一种方法。该算法具有直观、无需先验统计知识、无师学习等特点，目前已经成为数据挖掘技术得理论与应用研究方法之一。本文主要研究了近邻分类算法,首先简要地介绍了数据挖掘中得

2、各种分类算法，详细地阐述了K 近邻算法得基本原理与应用领域，最后在matb环境里仿真实现，并对实验结果进行分析，提出了改进得方法。关键词：K近邻，聚类算法，权重，复杂度，准确度1、引言12、研究目得与意义3、算法思想4、算法实现、1参数设置2、2数据集4、实验步骤34、4实验结果与分析5、总结与反思4附件61、引言随着数据库技术得飞速发展，人工智能领域得一个分支机器学习得研究自 20世纪 50年代开始以来也取得了很大进展。用数据库管理系统来存储数据，用机器学习得方法来分析数据,挖掘大量数据背后得知识,这两者得结合促成了数据库中得知识发现（Knowlde Discover in abes，简记

3、KDD)得产生,也称作数据挖掘(Daa ng，简记 DM）。数据挖掘就是信息技术自然演化得结果。信息技术得发展大致可以描述为如下得过程:初期得就是简单得数据收集与数据库得构造;后来发展到对数据得管理，包括：数据存储、检索以及数据库事务处理；再后来发展到对数据得分析与理解，这时候出现了数据仓库技术与数据挖掘技术。数据挖掘就是涉及数据库与人工智能等学科得一门当前相当活跃得研究领域。数据挖掘就是机器学习领域内广泛研究得知识领域，就是将人工智能技术与数据库技术紧密结合,让计算机帮助人们从庞大得数据中智能地、自动地抽取出有价值得知识模式,以满足人们不同应用得需要1.目前，数据挖掘已经成为一个具有迫切

4、实现需要得很有前途得热点研究课题。2、研究目得与意义近邻方法就是在一组历史数据记录中寻找一个或者若干个与当前记录最相似得历史纪录得已知特征值来预测当前记录得未知或遗失特征值4。近邻方法就是数据挖掘分类算法中比较常用得一种方法。近邻算法(简称KNN)就是基于统计得分类方法15。KNN 分类算法根据待识样本在特征空间中K 个最近邻样本中得多数样本得类别来进行分类，因此具有直观、无需先验统计知识、无师学习等特点,从而成为非参数分类得一种重要方法。大多数分类方法就是基于向量空间模型得。当前在分类方法中，对任意两个向量：x与存在种最通用得距离度量：欧氏距离、余弦距离1与内积1。有两种常用得分类策略：

5、一种就是计算待分类向量到所有训练集中得向量间得距离：如K 近邻选择K个距离最小得向量然后进行综合，以决定其类别。另一种就是用训练集中得向量构成类别向量，仅计算待分类向量到所有类别向量得距离，选择一个距离最小得类别向量决定类别得归属。很明显,距离计算在分类中起关键作用。由于以上3 种距离度量不涉及向量得特征之间得关系,这使得距离得计算不精确，从而影响分类得效果。3、算法思想K最近邻（K-eres Nighbor,N）算法，就是著名得模式识别统计学方法，在机器学习分类算法中占有相当大得地位.它就是一个理论上比较成熟得方法。既就是最简单得机器学习算法之一，也就是基于实例得学习方法中最基本得，又就是最

6、好得文本分类算法之一.其基本思想就是：假设每一个类包含多个样本数据，而且每个数据都有一个唯一得类标记表示这些样本就是属于哪一个分类， KN就就是计算每个样本数据到待分类数据得距离,如果一个样本在特征空间中得k个最相似（即特征空间中最邻近）得样本中得大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近得一个或者几个样本得类别来决定待分样本所属得类别.K最临近分类方法存放所有得训练样本,在接受待分类得新样本之前不需构造模型，并且直到新得（未标记得)样本需要分类时才建立分类.K最临近分类基于类比学习,其训练样本由维数值属性描述，每个样本代表N维空间得一个点。这样，所有训练样本

7、都存放在N维模式空间中.给定一个未知样本,k最临近分类法搜索模式空间，找出最接近未知样本得K个训练样本。这K个训练样本就是未知样本得K个“近邻”.“临近性”又称为相异度（Dssimiarity）,由欧几里德距离定义，其中两个点（x，x2,n）与Y(y1,y2，y)得欧几里德距离就是:未知样本被分配到K个最临近者中最公共得类.在最简单得情况下,也就就是当1时,未知样本被指定到模式空间中与之最临近得训练样本得类.4、算法实现4、参数设置K值得设定K值设置过小会降低分类精度;若设置过大，且测试样本属于训练集中包含数据较少得类,则会增加噪声，降低分类效果。通常，值得设定采用交叉检验得方式（以K=为

8、基准），通过查找相关资料，一般低于训练样本数得平方根,本实验中得训练样本数为10个,因此选取k=7。4、2数据集本文得实验数据采用软木塞得数据集，软木塞得样本可分为三类，分别用,2，代表，共10个样本，我们选取其中得100个样本为训练集，其余得50个样本为测试集。每个样本均包含0维特征,由于用10维特征计算量太大，本实验得目得主要就是明白K-最近邻算法得思想，重点不在计算，因此我们选取其中得两个属性作为本实验得数据，实验数据得部分截图如图1所示。图1、部分实验数据 4、3实验步骤第一步，初始化距离为最大值。第二步,计算未知样本与每个训练样本得距离dt。第三步,得到目前K个最临近样本中得最大距离

9、maxist。第四步，如果is小于mxds，则将该训练样本作为K最近邻样本.第五步，重复步骤2、3、4，直到未知样本与所有训练样本得距离都算完.第六步,统计最近邻样本中每个类标号出现得次数。第七步,选择出现频率最大得类标号作为未知样本得类标号。4、4实验结果与分析按照上述实验步骤,在mtlab中仿真实现k近邻分类算法得结果如下图2所示,图中得第一列数据表示样本编号，第二列与第三列表示软如塞数据得两位特征得值,第三列得数字表示本实验得分类结果图,第四列表示样本实际所属类別。图3中列出了详细错误信息.第一行与第一列表示样本类别,第i行第j列得元素表示第i类样本被分为第j类样本得个数（2，4),第五

10、列表示每类样本分类错误总数,第六列表示错误率。由图中数据易得,本实验得平均正确率为86、。图2、7最近邻分类结果图图3、错误统计图KN方法虽然从原理上也依赖于极限定理,但在类别决策时，只与极少量得相邻样本有关。因此，采用这种方法可以较好地避免样本得不平衡问题。另外，由于KN方法主要靠周围有限得邻近得样本，而不就是靠判别类域得方法来确定所属类别得,因此对于类域得交叉或重叠较多得待分样本集来说，KN方法较其她方法更为适合。该方法得不足之处就是计算量较大，因为对每一个待分类得文本都要计算它到全体已知样本得距离,才能求得它得K个最近邻点.目前常用得解决方法就是事先对已知样本点进行剪辑，事先去除对分类

11、作用不大得样本。该算法比较适用于样本容量比较大得类域得自动分类,而那些样本容量较小得类域采用这种算法比较容易产生误分。5、总结与反思模式分类在现实领域有着非常广泛得应用。近邻算法就是模式分类算法中一类常用得算法。本文针对传统得 KNN 算法得不足之处,提出了两点改进措施。 1、针对 KN 算法得计算量大、速度慢得缺点,对训练数据采用了预处理得方法.首先采用某一聚类方法对训练数据进行分类，然后再与K近邻方法相结合来判断待测样本得类别。现有得方法都就是经过聚类之后确定类别，按一定得规则挑选出来具有代表性得数据。然后再将这些挑选出来得数据作为训练样本.但这类方法能去除得数据非常有限,因此对计算量大得

12、改进不大，而本文提出得新得算法:在聚类之后,首先计算出来各个类别得中心,然后只需要考虑待测样本与聚类中心得距离就可以.然后再根据最终得到得距离得大小判断该点所属得类别。通过实例验证表明,该方法在算法得时间复杂度方面有一定得改进。 2、关于准确度得问题,我们主要就是舍弃了原来常用得欧式距离得计算公式，主要考虑了属性对分类得影响,在欧式距离得计算中引入了权值.尽管权值得确定在一定程度上增加了计算时间得代价,但就是从改进分类准确率上来说仍然就是必要得,尤其就是在数据中无关属性比较多,传统得分类算法误差较大得情况下学习特征权值尤其适用。权值得确定也已经有了不少得方法，如可以通过神经网络来确定权值等。本

13、文从训练样本出发，逐一统计计算每一个属性对分类结果得影响，根据影响得大小来确定权值。通过实例验证，可知这种方法得到得权值与其她常用得方法相比,在分类准确度方面有一定得提高。参考文献1邓箴,包宏、用模拟退火改进得 KNN 分类算法J。计算机与应用化学，010，27(3）:303-307.2郭躬德，黄杰，陈黎飞、基于 NN模型得增量学习算法J。模式识别与人工智能，20,23( ):707。黄杰，郭躬德，陈黎飞、增量 KN 模型得修剪策略研究J.小型微型计算机系统，201,(5)：84849.李欢，焦建民简化得粒子群优化快速 KNN 分类算法J。计算机工程与应用，008,4（ 3)： 57-5。5王

14、晓晔,王正欧.K最近邻分类技术得改进算法J。电子与信息学报，2005,7（3):4749Gu Gongde,ang Hui,llD，t al. Ug NN model for atmaitex caegoriaion、SoftputinA Fsion oFdaton, Mthodogidpplicatio，200,1（5)：2-430.7余小鹏，周德翼。一种自适应最近邻算法得研究J.计算机应用研究，2006(2): 707。附件1:源代码 KN、m% KN、m K-最近邻分类算法%A=xsa（E：上课机器学习模式识别课件数据R_OPPE、ls,2）；f=zers(150，5)；(：,:2）=A（1：50,：4)；f1（1：50，3：4)；f2=（51:100，3：4);f3=(01:15,：4);l=ero（10，0);r=：150 for j1:10 c(i，j）norm（f(i，：2）-f（，1：）; endend%对计算出得每个样本与其她150个

展开阅读全文