描述性统计分析的spss实现.doc

资源描述

《描述性统计分析的spss实现.doc》由会员分享，可在线阅读，更多相关《描述性统计分析的spss实现.doc（20页珍藏版）》请在金锄头文库上搜索。

1、第一章描述性统计我们把对某一个问题的研究对象的全体称为总体，总体就是一个具有确定分布的随机变量我们统计分析的目的是通过从总体中抽得的样本，对总体分布进行推断，要想较准确的推断出总体的分布，首先要对样本的分布状况有一个基本的了解，这一章就是介绍用以描述样本分布状况的一些常用统计分析方法，这些方法既直观又简单，而且也很实用1.1频数分析与图形表示一、总体X为只取少数个值的离散型随机变量例1.1.1考察一枚骰子是否均匀，设计实验如下：独立地掷这枚骰子42次，所得点数纪录如下： 3 2 4 1 5 1 5 3 4 3 5 6 4 2 5 3 1 3 4 1 4 3 1 6 3 3 1 2 4

2、2 6 3 4 6 6 1 6 2 4 5 2 6X为掷一枚均匀的骰子一次所得的点数 X1234567688671/61/74/214/211/71/6 二、当总体X取较多离散值或X为连续取值时设是总体X的一组样本观测值，具体做法如下：求出和，取a略小于,b略大于；将区间a，b分成m个小区间（mn）,小区间长度可以不等，分点分别为 a =b注意：使每个小区间中都要有一定量的观测值，且观测值不在分点上。划分区间个数的确定：区间过少：分布信息混杂，丢失信息区间过多：出现很多空区间区间划分个数m依赖于样本总数n，理论上有如下两个公式可参考： Moore(1986) ： m C，C = 13； St

3、urges(1928) ： m 1+3.322（lg n）；用表示落在小区间（,中观测值的个数（频数）并计算频率=（j=1,2,m）；在直角坐标系x-o-y的x轴上标出，分别以（,为底边，以为高作矩形，即得频数条形图。例1.1.2下表是某大学总数为从352名学生的“普通统计学”考试的成绩中，随机抽取的60位学生的成绩63 76 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 9974 76 95 91 83 61 82 85 83 44 88 72 66 94 68 78 88 71 94 85 82 79 100

4、9083 88 84 48 72 80 85 80 87 76 62 96对上述数据作频数分析并画出条形图。解分析区间个数：n=60 ，用Moore公式计算得C*5.123，这里C=1合适，取区间m = 6用Sturges公式计算得区间m = 6.907, 取区间m = 6 区间划分 10分一区间区间30,3940,4950,5960,6970,7980,8990,100频数1318132311 重新划分区间30,5960,6869,7677,8485,9290,100频数5712181081.2直方图与经验分布函数我们往往希望通过来自总体的一个样本能对总体X的分布有一个大概的估计，常用

5、的方法是直方图与经验分布函数一直方图直方图是利用样本所构造的函数来估计总体的分布密度函数设是总体X的一组样本观测值，X的分布密度为f具体做法如1.1中的做法，只是：在直角坐标系x-o-y的x轴上标出，分别以（,为底边，/为高作矩形,=-（j=1,2,m），即得直方图用直方图来近似总体的分布密度函数的实质是：用直方图所对应的分段函数 =/ x（,，j=1,2,m来近似总体的分布密度函数f(x)由于当n充分大时可用X 取（,的频率=来近似x（,的概率即 P（X（,）（n充分大）而P（X（,）=，即且当m充分大，较小时，对x（,）时故有即 =/， x（,，j=1,2,m例1.2.1做出例1.1.

6、2中考试成绩的直方图区间30,59(59,68(68,76(76,84(84,92(92,10029877785712181080.0830.1170.20.30.1670.133/0.0030.0150.029.0.0430.0240.017二经验分布函数利用样本所构造的函数来估计总体X的分布函数。构造的方法如下：从总体X中抽取容量为n的样本,， ,为样本观察值将样本观察值从小到大排列得到，对任意实数x，令= 称为总体的经验分布函数（或样本分布函数）经验分布函数图由的定义可知（1）单调、非降、右连续，在x = 处有间断点，在每一个间断点上的跳跃量都是，显然，01且满足= 0，= 1 ，所

7、以是一分布函数，其图象如上。（2）对于x的每一个值，为样本,的函数，因而是一个随机变量，其可能取的值为0，1事件“=”发生，意味着样本,中有k 个小于等于x，而其余n-k个大于x，即有k 个事件“x”发生，而有n-k个事件“x”不发生（ 1n，1n，s =1,2, ,n）由于,相互独立，具有相同的分布函数F(x)（总体X的分布函数），于是事件“=”发生的概率等价于n次独立试验中事件“Xx”发生k次，而其余n-k次“Xx”不发生的概率，即P = （3）事实上，对于x的任一个确定的值，是事件“Xx”发生的频率，而F (x)=P(Xx)是事件“Xx”发生的概率于是由贝努里大数定理知，当n足够大时，

8、依概率收敛到F(x)，即对任意给定的0，有 P|F(x)|=0这一事实揭示了经验分布函数与总体分布函数F (x)的内在联系，即当样本容量n足够大时，由样本得到的经验分布函数与总体分布函数F(x)相差较大的可能性是很小的进一步的结果由格列汶科于1933年给出定理1.2.1（格列汶科定理）设总体X的分布函数为F (x)，经验分布函数为对于任意实数x，记 |F(x)|则有 P = 0 = 1格列汶科定理指出：当样本容量n足够大时，经验分布函数与总体分布函数F(x)相差最大处概率为1地趋于零这就是我们在数理统计中可以用样本去推断总体的理论依据1.3 描述样本数据分布特征的统计量一描述位置的统计量描述样

9、本数据位置的统计量：样本均值、中位数、上下四分位数和众数、1 样本均值(Mean) （中心位置）（1）n个不同的值样本均值：= （2）个不同的值及每个值出现的频数，列表如下：表1.3.1合计n = 样本均值：= 样本均值,即数据的算术平均值,数据组中的所有元素以它为中心而分布在它的周围，是最常用的统计量。显然有等式 2中位数(Median) （中心位置）设n个数据按从小到大的顺序排列为：中位数为 M = 顾名思义，中位数即是大小处于中间位置的数，n个数据按从小到大的顺序排好后，我们称与为第1层，与为第2层，从两头一层一层往里剥,则有第3层，第4层，最后就达到“中心”，当n为奇数时，剥到最

10、后一层是一个数，当n为偶数时，剥到最后一层有两个数和，于是取它们的算术平均值作中位数。例1.3.1随机抽取某地11人的月收入情况，数据如下（单位：元）：790，380，420，770，1000，550，480，640，880，930，4500，由n=11为奇数，故其中位数为 M=770 前面已经引入了样本均值来刻划数据分布的中心，为什麽还要引入中位数来作为数据分布的中心呢？样本均值与中位数表示的含义各有不同，样本均值即算术平均蕴含了“重心”的意思；而中位数则明确地说明有一半及一半以上的数据不大于中位数，一半及一半以上的数据不小于中位数。中位数用于概括一个样本的位置，是高度耐抗的。因为，即便是一

11、个“好的”数据也难免有那麽百分之几的大错误，但这个别的极大或极小值，一般不会引起中位数的变化。正是由于这个特点，进行社会经济领域的数据分析时，将中位数作为中心常常比样本均值更具实际意义。下面举例说明。例如，在进行人口普查时，人口年龄的平均数是无法告诉人们社会是否已经进入老龄化，同时也没有告诉人们任何有关年龄分布状况的信息。而中位数恰恰可以反映出这方面特征，如人口年龄的中位数较大，也就告诉我们至少有一半以上人口的年龄已经超过了这个数，从而对社会是否进入老龄化这样的问题会有所掌握。因此西方许多国家人口普查或抽样调查中有关人口年龄的发布通常采用中位数进行描述。又如我们想了解某地区居民年生活费收入

12、，如果计算人均年生活费收入，那麽往往占人口比例很小的少数先富起来的人的收入很可能提高这个地区的人均收入指标，因而掩盖了贫富之间的差异，而忽略了反映一些处于贫困线以下居民的困难状况。从例1.3.1数据的统计量均值（1100）远远大于中位数（770）可以得出，其月收入的差距还是相当大的，确实还存在着一些贫困户，如月收入为380，420，480的人。但是由于11人中有一个高收入者，月收入为4500元，使得这11人的月平均收入达到1031元/月一个很不错的数字，它完全掩盖了数位贫困者的处境，而这11个数的中位数是770元/月，不太高的中位数蕴含着近一半的人连这个数字也未必达到，对于政府管理部门制订政策

13、及商家决定经营方针来说不能不算是个重要的信息。类似的例子可以举出许多，事实上人口统计方面的数据有不少是应当采用中位数来概括的。倘若我们处理的数据所来自的总体分布有一个长长的尾巴，采用中位数来概括会优于样本均值，因为在某些场合，均值对于分布尾部的小概率事件赋予了太多的关注（如上例中的4500元/月）。均值中位数，有较大的离群值或右侧更为分散的数据，其偏度为正，右偏均值中位数，有较小的离群值或左侧更为分散的数据，其偏度为负，左偏3众数（Mode）众数就是样本中出现频率最多的数据,，记作例如我们有如下数据：3，4，4，5，6，6，6，8，8，8，8，10，则众数为8一般来讲众数只有在样本容量n较大，有某些样本值出现较多时才有意义二描述样本数据分散程度的统计量描述样本数据分散程度的统计量有三种：样本方差、样本均方差、变异系数1样本方差（Variance）略2样本标准差（Std.deviation）略3均值标准误差（S.E.mean）也可称为抽样标准误，是样本均值的标准差，反映了样本均值与总体均值之间的差异程度，计算公式为 S.E.mean=4变异系数（百分率）样本均方差（标准差）s，一般能较好地描述样本数据之间的差异大小，但是由于s

展开阅读全文