数据分析实验四

上传人:今*** 文档编号:105740191 上传时间:2019-10-13 格式:DOC 页数:16 大小:288.50KB
返回 下载 相关 举报
数据分析实验四_第1页
第1页 / 共16页
数据分析实验四_第2页
第2页 / 共16页
数据分析实验四_第3页
第3页 / 共16页
数据分析实验四_第4页
第4页 / 共16页
数据分析实验四_第5页
第5页 / 共16页
点击查看更多>>
资源描述

《数据分析实验四》由会员分享,可在线阅读,更多相关《数据分析实验四(16页珍藏版)》请在金锄头文库上搜索。

1、实验课程: 数据分析 专 业: 信息与计算科学 班 级: 13080241 学 号: 1308024121 姓 名: 徐可 中北大学理学院实验四1991年全国各省、区、市城镇居民【实验目的】通过使用SAS软件对实验数据进行判别分析和聚类分析,熟悉数据分析方法,培养学生分析处理实际数据的综合能力。【实验内容】1991年全国各省、区、市城镇居民月平均收入情况见下表,变量含义如下:X1-人均生活费收入(元/人);X2-人均全民所有制职工工资(元/人);X3-人均来源于全民标准工资(元/人);X4-人均集体所有制工资(元/人);X5-人均集体职工标准工资(元/人);X6-人均各种奖金及超额工资(元/人

2、);X7-人均各种津贴(元/人);X8-职工人均从工作单位得到的其他收入(元/人);X9-个体劳动者收入(元/人)。省(区市)名类型x1x2x3x4x5x6x7x8x9北京1170.03110.259.768.384.4926.816.4411.90.41天津1141.5582.5850.9813.49.3321.312.369.211.05河北1119.483.3353.39117.5217.311.79120.7上海1194.53107.860.2415.68.883121.0111.80.16山东1130.4686.2152.315.910.520.6112.149.610.47湖北11

3、19.2985.4153.0213.18.4413.8716.478.380.51广西1134.4698.6148.188.94.3421.4926.1213.64.56海南1143.7999.9745.66.31.5618.6729.4911.83.82四川1128.0574.9650.1313.99.6216.1410.1814.51021云南1127.4193.5450.5710.55.8719.4121.212.60.9新疆1122.96101.469.76.33.8611.318.965.624.62山西2102.4971.7247.729.426.9613.127.96.660.6

4、1内蒙古2106.1476.2746.199.656.279.65520.16.970.96吉林2104.9372.9944.613.79.019.43520.616.651.68黑龙江2103.3462.9942.9511.17.418.34210.196.452.68江西298.08969.4543.0411.47.9510.5916.57.691.08河南2104.1272.2347.319.486.4313.1410.438.31.11贵州2108.4980.7947.526.063.4213.6916.538.372.85陕西2113.9975.650.885.213.8612.94

5、9.4926.771.27甘肃2114.0684.3152.787.815.4410.8216.433.791.19青海2108.880.4150.457.274.078.37118.985.950.83宁夏2115.9688.2151.858.815.6313.9522.654.750.97辽宁3128.4668.9143.4122.415.313.8812.429.011.41江苏3135.2473.1844.5423.915.222.389.66113.91.19浙江3162.5380.1145.9924.313.929.5410.9133.47安徽3111.7771.0743.6419

6、.412.516.689.6987.020.63福建3139.0979.0944.1918.510.520.2316.477.673.08湖南312484.6644.0513.57.4719.1120.4910.31.76广东待判211.311441.4433.211.248.7230.7714.911.1西藏待判175.93163.857.894.223.3717.8182.3215.701、1)判定广东、西藏两省区属于哪种收入类型,并用回代法及交叉确认法对误判率作出估计。 2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。2、1)用最短距离法、最长距离法与类平均法聚类,画出谱系图

7、,并写出分3类的结果; 2)快速聚类法聚类,并写出分3类的结果。【实验所使用的仪器设备与软件平台】计算机 SAS软件【实验方法与步骤】(阐述实验的原理、方案、方法及完成实验的具体步骤等,附上自己编写的程序)将上述题中全部数据全部放入Excel中再导入为shuju数据集,再将最后两行待判的广东、西藏两省放入Excel中再导入为daipan数据集其中,四川最后一个数据有错。程序如下:proc discrim data=shuju testdata=daipan method=normal list crosslist testlist;class leixing;var x1-x9;priors

8、proportional;run;proc cluster data=shuju method=sin outtree=y1; run;proc tree data=y1 nclusters=3 out=z1;run;proc print data=z1;run;proc cluster data=shuju method=com outtree=y2;run;proc tree data=y2 nclusters=3 out=z2;run;proc print data=z2;run;proc cluster data=shuju method=ave outtree=y3;run;proc

9、 tree data=y3 nclusters=3 out=z3;run;proc print data=z3;run; proc fastclus data=shuju out=a1 maxc=3 cluster=c distance list; proc plot;plot x2*x1=c;run;【实验结果】1、1)回代法:从图中可以看出将广东判入第三类,将西藏判入第一类。由图可知:算得的线性判别函数为用回代法,所有样品回代都正确,故误判率的回代估计为0交叉确认法:从图中可以看出将广东判入第三类,将西藏判入第一类2)进行Bayes判别,并用回代法与交叉确认法验证判别结果。待判样品广东,西

10、藏由Bayes判别得:广东被判入了第三类。西藏被判入了第一类。由图可知:先验概率按比例分配为有图可得:线性判别函数为回代法验证结果:交叉确认法验证结果:2、1)最短距离法:谱系图:第一类结果为:河北、山东、广西、海南、云南、新疆、江苏、浙江、上海、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、陕西、甘肃、青海、宁夏、辽宁、福建、湖南、河南、贵州、安徽第二类结果为:广东第三类结果为:西藏最长距离法:谱系图:第一类结果为:河北、山东、广西、海南、云南、新疆、江苏、浙江、上海、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、陕西、甘肃、青海、宁夏、辽宁、第二类结果为:河南、贵州、广东、安徽第三类结果为

11、:西藏、福建、湖南类平均法聚类:谱系图:第一类结果为:河北、山东、广西、海南、云南、新疆、江苏、浙江、上海、广东、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、河南、贵州、陕西、甘肃、青海、宁夏、辽宁、安徽第二类结果为:福建、湖南第三类结果为:西藏 2)快速聚类法聚类,并写出分3类的结果。初始聚点:对对应城市广东、新疆、黑龙江的分类结果: 第一类结果为:天津、山东、广西、海南、云南、新疆、江苏、浙江、福建、湖南第二类结果为:北京、上海、广东、西藏第三类结果为:河北、湖北、四川、山西、内蒙古、吉林、黑龙江、江西、河南、贵州、陕西、甘肃、青海、宁夏、辽宁、安徽分类结果散点图为:【实验原理】1. Bayes判别即寻找一个划分,使平均误判损失达到最小。2.为了弥补谱系聚类法的不足产生的快速聚类法是先将样品组类的分一下类,然后再按某种原则进行修正,直至分类比较合理为止。【结果分析与讨论】通过本次实验,得出以下结论:1. 用谱系聚类法的最短距离法、最长距离法与类平均法聚类算出的3类是不相同的因为三种计算方法的公式不相同。2. 由聚类分析法得出的第一类为人均收入最高的,第二类次之,第三类人均收入最低3. Bayes判别将带判的样品判别判入哪一类,还可以看出误判引起的损失。 102

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号