北京大学统计学经典课件第八章聚类分析

上传人:aa****6 文档编号:54804981 上传时间:2018-09-19 格式:PPT 页数:31 大小:2.33MB
返回 下载 相关 举报
北京大学统计学经典课件第八章聚类分析_第1页
第1页 / 共31页
北京大学统计学经典课件第八章聚类分析_第2页
第2页 / 共31页
北京大学统计学经典课件第八章聚类分析_第3页
第3页 / 共31页
北京大学统计学经典课件第八章聚类分析_第4页
第4页 / 共31页
北京大学统计学经典课件第八章聚类分析_第5页
第5页 / 共31页
点击查看更多>>
资源描述

《北京大学统计学经典课件第八章聚类分析》由会员分享,可在线阅读,更多相关《北京大学统计学经典课件第八章聚类分析(31页珍藏版)》请在金锄头文库上搜索。

1、分类*俗语说,物以类聚、人以群分。*但什么是分类的根据咬?*比如,要想把中很多种分类法;的县分成若干类,就有*可以按照自然条件来分,.比如考虑降水、-团;地、日照、湿度等各方*也可以考虑收入、教育水准、医疗条件、基础设施等指标;*既可以用某一项来分类,也可以同时考虐多项指标来分类。聚类分析*对于一个数据,人们既可以对变量(指标进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩分类,*当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分粑。*本章要介绍的分类的方法称为聚类

2、分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。饮料数据(drink.say)16种饮料的热量、咖啡因、钠及价格四种变量饮料编号E咖啡固价格1207.20330_j5o280236.8059012903303友20730820240436704010504005121704109203.506891040010203307146704309701808220工602205一1s610【一060口653012630巳7701442013101547072016200830如何度量远近?*如果想要对100个学生

3、进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在目线上形成100个点。这样就可以把接近的点放到一类。*如果还知道他们的物理成绩,区样数学和物理成绩就形成二维平面上的100个点,可以按熊距离远近来:夺;羞-三维或者吏高维的情况且是娄似只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维宇间点的问题了。两个距离概念*挂照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是欧氏距离,迦有其他的距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相

4、当于距离越短。*由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定粤间距离,。类间距离是基于点间距离定义的,比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差石向量g=(xl,.。,Xb)与y=(ylo.,yp)之间的距高或相似系数:欧氏距商:2,【G工广“平方欧氏距商:x一Euclidean革sq霜redEucli

5、dean写二(“y)灾角余弦wrau:cosine一xBlock(绝对距高):Zilxi-yiCu(D=coS艘叮=弋V寥捣芩yiPearsoncorrelationChebychev:Maxilxi-yi|,0nmmaao二-刃Mink0Wski:一口CJzr=一一_乏(扮)o户丽当变量的测量值相差悬殊时,要先进行标准化.如民为极差,5为标准差,则标准化的数据为每个观测值减去均值后雯除以R或$.当观测值大于0时,有人采用Lance和Williams的距商工F瘩2瘘十y翼类G与类G之间的践高Dog(d(xbx)表示点wCGp和XjCG之间的距高)最短距禽法:最长距高法:D=mind(xx)D五

6、maxd(xix)类平均法:重心法:1二IminQ(儿,丿刃,=一一QCrox),五mind(X,万)命市逞_熹)高差平方和:(Wal0丶=一伟-一)(8-二)D=又(-丶)(xm-马)re功=ZDaeCouCy(中间距离,可变平均法,可变法若可参考各书).在用欧氏距禽时,有统一的递推公式(假设G是从G和G合并而来):Lance和Williams给出(对欧氏距高)统一递推公式:D2(frz=oD2(icp)+auD2(g)+BD2(p,9)+yID2(Rp)-D2(g)前面方法的递推公式可选择参数而得:方法O(i=p,q)B7最短距禽h0-12最长距高圣02重心a-oror)0类平均nyni00商差平方和(nihnW/(n+nw)-nM(n+nig0中间距禽1/2-L40可变法“(1-B/2B(D0可变平均(1-旦ny/n.B(D“0有了上面的点间距离和类间距离的概念,就可以介绍聚类的方法了。这里介绍两个简单的方法。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号