学号: 班级: 姓名: 实验十三 谱系聚类实验目的和要求 掌握谱系聚类分析的理论与方法、模型的建立;掌握利用谱系聚类分析的SAS过程解决有关实际问题.实验要求:编写程序,结果分析.实验内容:要求:1.写出谱系聚类步骤,类间距离公式;谱系聚类法的步骤:1)n 个样品开始时作为 n 个类,计算两两之间的距离,构成一个对称距离矩阵此时nnddD 2121120 pqdD),(2)选择 中主对角线以下(或以上)最小元素,设为 ,这时 与0 pq}{pxG,将 与 合并为新类 .在 中消去 与 对应的行与列,}{qxGpq },{qpRG0q加入新类 与剩下未聚合的类间距离所组成的一行和一列,得新的 阶距离矩r 1n阵 .)1(D3)重复步骤(2) ,得 , n 个样品聚为一个大类.)1(D)1()2(D4)记下合并样品的编号及两类合并时的距离(称为距离水平) ,绘制聚类谱系图.类间距离及其递推公式:类 与 间距离 . 和 合并得 ,类间距离 、类间距离递推公式有pGqpqDGqrpqD4 种:1)最短距离、递推公式——两类中样品之间距离最短者作为类间距离qpijpqjd,mn递推公式},min{qkpkrijrk DGD学号: 班级: 姓名: 2)最长距离、递推公式——两类中样品之间距离最长者qpijpqGjdD,maxkrijqkrk jd,ax}{3)类平均距离、递推公式——两类中所有两两样品之间的距离的平均pqGijijpqn1递推公式qkrpkrijijkrk DndDrk类平方距离——两类中所有两两样品之间的平方距离pqGijijpqn221递推公式 2222 qkrpkrijijkrk DndDrk4)重心距离、递推公式——两类的重心之间的距离作为两类间的距离),(qppqxd递推公式2222 pqrqkrpkrk DnDn2.书上 6.9(1)程序如下:data examp6_9;input blmc $ x1-x14;cards;x1 1.000 0.366 0.242 0.280 0.360 0.282 0.245 0.448 0.486 0.648 0.679 0.486 0.133 0.376x2 0.366 1.000 0.233 0.194 0.324 0.263 0.265 0.345 0.367 0.662 0.681 0.636 0.153 0.252x3 0.242 0.233 1.000 0.590 0.476 0.483 0.540 0.452 0.365 0.216 0.243 0.174 0.732 0.676x4 0.280 0.194 0.590 1.000 0.435 0.470 0.478 0.404 0.357 0.316 0.313 0.243 0.477 0.581学号: 班级: 姓名: x5 0.360 0.324 0.476 0.435 1.000 0.452 0.535 0.431 0.429 0.429 0.430 0.375 0.339 0.441x6 0.282 0.263 0.483 0.470 0.452 1.000 0.663 0.322 0.283 0.283 0.302 0.290 0.393 0.447x7 0.245 0.265 0.540 0.478 0.535 0.663 1.000 0.266 0.287 0.263 0.294 0.255 0.446 0.440x8 0.448 0.345 0.452 0.404 0.431 0.322 0.266 1.000 0.820 0.527 0.520 0.403 0.266 0.424x9 0.486 0.367 0.365 0.357 0.429 0.283 0.287 0.820 1.000 0.547 0.558 0.417 0.241 0.372x10 0.648 0.662 0.216 0.316 0.429 0.283 0.263 0.527 0.547 1.000 0.957 0.857 0.054 0.363x11 0.679 0.681 0.243 0.313 0.430 0.302 0.294 0.520 0.558 0.957 1.000 0.852 0.099 0.376x12 0.486 0.636 0.174 0.243 0.375 0.290 0.255 0.403 0.417 0.857 0.852 1.000 0.055 0.321x13 0.133 0.153 0.732 0.477 0.339 0.392 0.446 0.266 0.241 0.054 0.099 0.055 1.000 0.627x14 0.376 0.252 0.676 0.581 0.441 0.447 0.440 0.424 0.372 0.363 0.376 0.321 0.627 1.000;run;proc cluster data=examp6_9 method=com std nonorm outtree=tree1;var x1-x14;id blmc;run;proc tree data=tree1 graphics horizontal out=c1 nclusters=4;id blmc;run;proc print data=c1;run;结果如下:学号: 班级: 姓名: 类的数目 新聚类集 新类中样品数 合并时的最长距离谱系图如下所示:学号: 班级: 姓名: (2)程序如下:proc cluster data=examp6_9 method=ave std nonorm nosquare outtree=tree2;var x1-x14;id blmc;run;proc tree data=tree2 graphics horizontal out=c2 nclusters=4;id blmc;run;proc print data=c2;run;结果如下:学号: 班级: 姓名: 类的数目 新聚类集 新类中样品数 合并时的最长距离谱系图如下所示:学号: 班级: 姓名: 3.波士顿房价问题(或者 6.7(1) (3) )6.7(1)程序如下:data examp6_7;input years $ x1-x6;cards;1985 128.1 100.0 134.2 100.0 166.8 111.11986 135.8 106.5 143.6 106.1 177.5 114.71987 145.7 114.3 156.2 112.7 198.8 120.21988 172.7 135.8 188.5 132.4 244.5 138.51989 203.4 160.2 219.2 157.9 281.2 164.41990 207.7 162.2 222.0 165.1 273.9 172.01991 213.7 170.8 233.3 168.9 268.4 177.21992 225.7 181.7 253.4 176.8 277.5 182.71993 254.9 208.4 294.2 201.0 314.7 204.31994 310.2 258.6 367.8 248.0 440.3 239.41995 356.1 302.8 429.6 291.4 527.9 274.61996 377.8 327.9 467.4 314.4 550.1 291.61997 380.8 337.1 481.9 322.3 525.3 294.81998 370.9 334.4 479.0 319.1 483.3 288.3学号: 班级: 姓名: 1999 359.8 329.7 472.8 314.3 424.3 280.52000 354.4 331.0 476.6 314.0 409.0 277.1;run;proc cluster data=examp6_7 method=com nonorm outtree=tree2;var x1-x6;id years;run;proc tree data=tree2 graphics horizontal out=c2 nclusters=3;id years;run;proc print data=c2;run;结果如下:最长距离法分三类的结果:学号: 班级: 姓名: 谱系图如下:(3)程序如下:proc cluster data=examp6_7 method=com std nonorm outtree=tree2;var x1-x6;id years;run;proc tree data=tree2 graphics horizontal out=c2 nclusters=3;id years;run;学号: 班级: 姓名: proc print data=c2;run;结果如下:最长距离法分三类的结果:谱系图如下:学号: 班级: 姓名: 为了了解波士顿地区的住房状况,Harrison 收集了 1978 年波士顿大区每个调查行政区的 506 各观察值。
数据见 Excel 表波士顿住房,其中::人均犯罪率;1X:大块占地住宅区比例;2:非零售商业占地比例(英亩) ;3:查尔斯河虚拟变量(如果靠近河岸用 1 表示;否则用 0 表示) ;4:氮氧化物浓度;5:每户平均房间数;6X:1940 年前建造的户主所有房比例;7:与五个波士顿劳动力聚集区的加权距离;8:与辐射式公路接近指数;9:每 1 万美元的全值财产税;0X:学生/教师比例;: ,其中 B 为非洲裔美国人比例;12 )63.0().(2IB:低社会地位人口的比例(%) ;3:户主拥有住房价值的中位数(单位:千美元) ;14X(1) 对住房数据做谱系聚类分析,将 506 个地区分为 4 类( 将其中 5、100、400 号剔除),给出分类结果,和快速聚类结果相同吗?你认为分几类合适,说出理由。