《多元统计分析》第三版例题习题数据

资源描述

《《多元统计分析》第三版例题习题数据》由会员分享，可在线阅读，更多相关《《多元统计分析》第三版例题习题数据（10页珍藏版）》请在金锄头文库上搜索。

1、多元统计分析第三版例题习题数据何晓群多元统计分析第三版（2012）数据下载第2章例2-1 1999年财政部、国家经贸委、人事部和国家计委联合发布了国有资本金效绩评价规则。其中，对竞争性工商企业的评价指标体系包括下面八大基本指标：净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。下面我们借助于这一指标体系对我国上市公司的运营情况进行分析，以下数据为35家上市公司2008年年报数据，这35家上市公司分别来自于电力、煤气及水的生产和供应业，房地行业，信息技术业，在后面各章中也经常以该数据为例进行分析。习题3.今选取内蒙古、广西、贵州、云南、

2、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省份。选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口的比例等五项能够较好的说明各地区社会经济发展水平的指标。验证一下边远及少数民族聚居区的社会经济水平与全国平均水平有无显著差异。数据来源：中国统计年鉴（1998）。 5项指标的全国平均水平0=（6212.01 32.87 2972 9.5 15.78）/第3章例3-1 若我们需要将下列11户城镇居民按户主个人的收入进行分类，对每户作了如下的统计，结果列于表3-1。在表中，“标准工资收入” 、“职工奖金” 、“职工津贴” 、“性别” 、“就业身份”等称为指标，每

3、户称为样品。若对户主进行分类，还可以采用其他指标，如“子女个数” 、“政治面貌” 等，指标如何选择取决于聚类的目的。表3-1 某市2001年城镇居民户主个人收入数据X1 职工标准工资收入 X5 单位得到的其他收入 X2 职工奖金收入 X6 其他收入 X3 职工津贴收入 X7 性别 X4 其他工资性收入 X8 就业身份 X1 540.00 1137.00 1236.00 1008.00 1723.00 1080.00 1326.00 1110.00 1012.00 1209.00 1101.00X2 0.0 125.00 300.00 0.0 419.00 569.00 0.0 110.00

4、88.00 102.00 215.00X3 0.0 96.00 270.00 96.00 400.00 147.00 300.00 96.00 298.00 179.00 201.00X4 0.0 0.0 0.0 0.0 0.0 156.00 0.0 0.0 0.0 67.00 39.00X5 0.0 109.00 102.00 86.0 122.00 210.00 148.00 80.00 79.00 198.00 146.00 Dutch een twee drie vier vijf zes zevenX6 6.00 812.00 318.00 246.00 312.00 318.00

5、312.00 193.00 278.00 514.00 477.00 German ein zwei drei vier funf sechs siebcnX7 男女女男男男女女女男男X8 国有集体国有集体国有集体国有集体国有集体集体 French un deux trois quatre einq six sept例3-3English One Two Three Four Five Six sevenNorwegian En To Tre Fire Fem Seks SjuDanish en to tre fire fem seks syvEight

6、 Nine TenSpanish Uno Dos Tres cuatro Cinco Seix Siete Ocho nueve DiezAte Ni TiItalian uno due tre quattro cinque sei sette otto nove dieciotte ni tiPolish jeden dwa trzy cztery piec szesc siedem osiem dziewiec dziesiecacht negen tien acht neun zehnHungarian egy ketto harom negy ot hat het nyolc kile

7、nc tizFinnishhuit neuf dixyksi kaksi kolme neua viisi kuusi seitseman kahdeksau yhdeksan kymmenen例3-4X1 食品支出（元/人） X5 交通和通讯支出（元/人）X2 衣着支出（元/人） X6 娱乐、教育和文化服务支出（元/人） X3 家庭设备、用品及服务支出（元/人） X7 居住支出（元/人）X4 医疗保健支出（元/人） X8 杂项商品和服务支出（元/人）辽宁浙江河南甘肃青海X1 1772.14 2752.25 1386.76 1552.77 1711.03X2 568.25 569.95

8、 460.99 517.16 458.57X3 298.66 662.31 312.97 402.03 334.91X4 352.20 541.06 280.78 272.44 307.24X5 307.21 623.05 246.24 265.29 297.72X6 490.83 917.23 407.26 563.10 495.34X7 364.28 599.98 547.19 302.27 274.48X8 202.50 354.39 188.52 251.41 306.45例3-5x1 人均粮食支出（元/人） x5 人均衣着支出（元/人） x2 人均副食支出（元/人） x6 人均

9、日用杂品支出（元/人） x3 人均烟、酒、饮料支出（元/人） x7 人均水电燃料支出（元/人） x4 人均其他副食支出（元/人） x8 人均其他非商品支出（元/人）第4章例4-1 判别分析的一个重要应用是用于动植物的分类当中，最著名的一个例子是1936年Fisher的鸢尾花数据（Iris Data）。鸢尾花为法国的国花，Setosa、Versicolour、Virginica是三种有名的鸢尾花，其萼片是绚丽多彩的，和向上的花瓣不同，花萼是下垂的。这三种鸢尾花很像，人们试图建立模型，根据萼片和花瓣的四个度量来把鸢尾花分类。该数据给出150个鸢尾花的萼片长(sepal length)、萼

10、片宽(sepal width)、花瓣长(petal length)、花瓣宽(petal width)以及这些花分别属于的种类(Species)等共五个变量。萼片和花瓣的长宽为四个定量变量，而种类为分类变量(取三个值Setosa、Versicolour、Virginica)。这里三种鸢尾花各有50个观测值。数据格式如下图所示：定义新的变量y为被解释变量，用“1”代表Setosa鸢尾花，用“2”代表Versicolour鸢尾花，用“3”代表Virginica鸢尾花，将萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal wid

11、th)四个变量作为解释变量。使用SPSS软件中的AnalyzeClassifyDiscriminant，就进入了判别分析的对话框。分组变量(Grouping Variable)选择y，然后定义y的区域，最小值是1，最大值是3。解释变量(Independents)选择sepal.length、sepal.width、petal.length和petal.width。统计量(Statistics)选项中选择描述统计量Means，Univariate ANOVAs和Box M ，函数选择Fisher和非标准化函数，矩阵选择Within-groups correlation。分类(Classify)选

12、项中选择先验概率（所有组相等或根据组的大小计算概率），因为三个品种的都是50种，因此两种选择的效果一样，子选项显示(display)中选择每个个体的结果(Casewise results)，综合表(Summery Table)和“留一个在外”(Leave-one-out classifation)的验证原则，协方差矩阵选择Within-groups，作图选择Combined-groups。保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法，我们还可以选择判别的方法(Method)。得到分析结果如下：输出结果4-1Discriminant（1）输出结果4-1

13、分析的是各组的描述统计量和对各组均值是否相等的检验。第1张表反映的是有效样本量及变量缺失的情况。第2张表是各组变量的描述统计分析。第3张表是对各组均值是否相等的检验。由第3张表可以看出，在0.01的显著性水平上我们拒绝变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值相等的假设，即认为变量萼片长(sepal length)、萼片宽(sepal width)、花瓣长(petal length)和花瓣宽(petal width)在三组的均值是有显著性差异的。输出结果4-2Boxs Test of

14、 Equality of Covariance Matrices（1）输出结果4-2是对各组协方差矩阵是否相等的Box M检验。第1张表反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。第2张表是对各总体协方差阵是否相等的统计检验。由F值及其显著水平，我们在0.05的显著性水平下拒绝原假设（原假设假定各总体协方差阵相等）。因此，在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups，以检验采用Within-groups和Separate-groups两种协方差所得出的结果是否存在显著差异。如果存在显著差异就应该采用Separate

15、-groups协方差矩阵，反之，就用Within-groups协方差矩阵。输出结果4-3Summary of Canonical Discriminant Functions输出结果4-3分析的是典型判别函数。第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了99.1的方差，第二判别函数解释了0.9%的方差，两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由Wilks Lambda检验，认为两个判别函数在0.05的显著性水平上是显著的。输出结果4-4（1）（2）（3）（4）输出结果4-4显示的是判别函数、判别载荷和各组的重心。第1张表是标准化的判别函数，表示为y1 0.427Sepal.Length* 0.521Sepal.Width* 0.947Petal.Length* 0.575Petal.Width*y2 0.012Sepal.Length 0.735Sepal.Width 0.401Petal.Length 0.581Petal.Width*，这里表示标准化变量，标准化变量的系数也就是前面讲的判别权重。第2张表是结构矩阵，即判别载荷。由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。第3张表是非标准化的判别函数，表示为y1 2.105 0.829Sepal.Length 1.534Sep

展开阅读全文