描述性统计分析－金锄头文库

资源描述

《描述性统计分析》由会员分享，可在线阅读，更多相关《描述性统计分析（79页珍藏版）》请在金锄头文库上搜索。

1、第四章非参数统计实验参数统计学中的许多统计分析方法的应用对总体都有严格的假定，例如，t检验要求总体服从正态分布，F检验要求误差呈正态分布且各组方差为齐性的等等，然而在现实生活中，有许多总体的分布我们却是一无所知或知之甚少，所以在参数模型中所建立的统计推断就会失效，于是，人们希望在不假定总体分布的情况下，尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。非参数统计方法简便，适用性强，但检验效率较低，应用时应加以考虑。实验一卡方检验（Chi-square test）实验目的：掌握卡方检验方法。实验内容：一、拟合优度检验二、独立性检验三、齐性检验实验工具：SPSS非参数统计分析菜单项和C

2、rosstabs菜单项。知识准备：一、卡方拟合优度检验检验(ChiSquare Test) 适用于拟合优度检验，适用于定类变量的检验问题，用来检验实际观察数目与理论期望数目是否有显著差异。当检验问题是实际分布是否与理论分布相符合时，在大样本时也可以用分类数据的卡方检验来解决，这时的卡方检验也称为分布拟合的卡方检验。若样本分为k类，每类实际观察频数为，与其相对应的期望频数为，则检验统计量可以测度观察频数与期望频数之间的差异。其计算公式为：很显然，实际频数与望频数越接近，值就越小，若0，则上式中分子的每项都必须是0，这意味着k类中每一类观察频数与期望频数完全一样，即完全拟合。统计量可以用来测度

3、实际观察频数与期望频数之间的拟合程度。在H0成立的条件下，样本容量n充分大时，统计量近似地服从自由度dfk-1的分布，因而，可以根据给定的显著性水平，在临界值表中查到相应的临界值。若，则拒绝H0，否则不能拒绝H0。所有的统计软件都可以输出检验统计量的显著性值，也可以根据显著性值和显著性水平作比较，若，则拒绝H0，否则不能拒绝H0。另外卡方拟合优度检验也可以用来检验某总体是否服从某一特定分布的假设。拟合优度检验中几种常用分布的参数如表4-1：表4-1 拟合优度检验中几种分布的参数分布参数估计值参数个数df二项分布1k-2泊松分布1k-2正态分布2k-3指数分布1k-2二、独立性检验假设有个随机试

4、验的结果按照两个变量A和B分类，A取值为A1，A2，Ar，B取值为B1，B2，Bs，则形成了一张的列联表，称为二维列联表。其中表示A取Ai及B取Bj的频数，其中：表示各行的频数之和表示各列的频数之和令（），和分别表示各行和各列的边缘概率，对于二维列联表，如果变量A和变量B是独立的，则A和B的联合概率应该等于A和B边缘概率的乘积。因而有如下检验：在H0成立的条件下，二维列联表中的期望频数为：则如果期望频数，则统计量近似服从自由度为的卡方分布。如果Pearson值过大，或p值过小，则拒绝H0，认为变量A和变量B存在某种关联，即不是独立的；否则不能拒绝H0，认为是独立的。如果期望，则需要将其合并使

5、得期望频数，否则容易夸大卡方统计量值，导致拒绝原假设的结论。三、齐性检验与独立性检验类似的是齐性检验。实际问题中，假设有n组从不同来源得到的数据，要判定这些数据的来源是否相同（相同的分布），统计上我们可以将这些问题表述为：假定有k组样本，分别取自k个总体，要检验这k个总体的分布是否相同。这样的假设检验问题称为“齐次性检验”。对一般的二维列联表，可以提出假设：（）在H0成立的条件下，这些概率与j无关，因此的期望值（理论频数）为，因此期望值，则检验统计量为：与独立性检验一样，如果，则统计量近似服从自由度为的卡方分布。如果Pearson值过大，或p值过小，则拒绝H0，；否则不能拒绝H0。实验背景

6、:一、据以往经验，机床发生故障的频数服从均匀分布，某车间在一周内统计所有机床发生故障频数的资料如下：表4-2 故障频数星期一二三四五六故障次数78391617检验故障频数是否服从均匀分布（）？二、在丧偶问题上的性别因素和地区因素是否独立按照1996年一个抽样，我国华北五省市区的丧偶人数按性别分为：表4-3 1996年华北地区丧偶情况统计男女合计北京112356478天津130305435河北84617872633山西3597821141内蒙古291558849合计174837885536检验在丧偶数量上性别因素和地区因素是否独立。三、在一个有三个主要百货商场的商贸中心，调查者问4

7、79个不同年龄段的人首先去三个商场中的哪个，结果如下表：表4-4 调查结果年龄段商场1商场2商场3总和3083704519831509186151925041381089总和21519470479检验人们去这三个商场的概率是否一样。（数据来源：非参数统计，王星，中国人民大学出版社，P161）实验过程：一、用Chi-Square过程进行拟合优度检验激活数据管理窗口，定义变量名：每天为day，故障次数为count。按顺序输入数据，结果见图4.1。图4.1点击Data菜单选Weight Cases.命令项，弹出Weight Cases对话框（如图4.2），选Weight cases by，再选co

8、unt点击钮使之进入Frequency Variable框，定义count变量为权数，再点击OK钮即可。图4.2选择Analyze/ Nonparametric Tests/Chi-Square，打开卡方检验对话框，如图4.3所示：图4.3图4.3左侧为候选变量框，在候选变量框中选择一个或多个变量，单击向右箭头按钮使其进入右侧的Test Variable List框中。（1）Test Variable List框：用于选入需要进行检验的变量，可以选入一个或多个，如果选入多个，系统会对其依次进行分析。本例中选中变量count，使之进入Test Variable List框。（2）Expected

9、 Range单选框：设定需检验的变量的取值范围，在此范围之外的取值将不进入分析。 Get from data选项：数据文件的最大值和最小值所确定的范围，系统默认该项。Use specified range选项：自行制定检验的取值范围，在Lower和Upper框中键入检验范围的下限和上限。本例采用系统默认项。（3）Expected Values单选框：指定已知总体的各分类构成比。All categories equal选项：系统默认项，各类别构成比例相等，即意味着检验的总体是服从均匀分布的。本例中使用此选项。 Values选项：自行定义给类别构成比例，每输入一个值后按Add按钮，于是在它右边的框

10、中便增加了刚键入的数值。要求输入数值必须大于0，一直到输完为止，如果在输入过程出现了错误，并已按Add按钮使录入的值进入了右下框中，则可用鼠标来进行修改，即用鼠标将光标移到错误处，但一鼠标左上键使错误值置于光带中，若是刚录入的值，则可以点击Remove按钮将其删除，然后重新录入；如果错误值在录入值中间，则先将它置于光带中，然后在Add右边的观众键入修改的值后按Change按钮进行替换。（4）Exact子对话框：用于设定是否进行确切概率的计算，以及具体的计算方法。如图4.4Asymptotic only：渐近分布的显著性检验，只近似计算概率，不计算确切概率，适合于渐近性分布和较大样本，系统默认选

11、项。Monte Carlo：采用蒙特卡罗模拟方法计算确切概率，适合于数据满足渐近性分布，而且数据过大以至不能计算精确显著性。Confidence：指定置信度，默认为99%。Number of sample：指定计算的样本数目，样本数越大显著性水平越可靠，默认为10000。Exact：准确计算观测结果的统计概率Time limit per test：限定进行每个检验所使用的最长时间，如果超过30分钟，则用Monte Carlo法比较合适，默认计算时间限制在5分钟内，超过此时限则自动停止。图4.4（5）Option子对话框：选择输出结果形式及缺失值处理方式。如图4.5 图4.5Statistics

12、复选框：选择可供输出的统计量。Descriptive：输出常用的描述统计量，包括变量的均值、标准差、最大值、最小值等等。Quartiles：输出变量的四分位数。Missing Values单选框：选择缺失值的处理方式。 Exclude cases test-by-test：分析用到的变量有缺失值时去除该记录。系统默认该项，以便充分利用数据。本例中选择默认项，不做修改。 Exclude cases listwise：只要相关变量有缺失值，则在所有分析中均去除该记录。在本例中，点击Data菜单选Weight Cases.命令项，弹出Weight Cases对话框（如图4.2），选Weight ca

13、ses by，再选count点击钮使之进入Frequency Variable框，定义count变量为权数，再点击OK钮即可。选择Analyze/ Nonparametric Tests/Chi-Square，打开Chi-Square检验对话框，选择变量count进入Test Variable List框，其他选择不做任何修改，在主对话框点击ok按钮，提交运行命令，得到结果如图4.6、图4.7：图4.6图4.6中，最上方Npar Tests表示进行的是非参数统计检验，Chi-Square Test表示进行的是卡方检验，Frequency为表格名称，表示输出的是频数表，count是检验变量名，表

14、格内显示的是6个类别的观测频数、期望频数和残差。在本例中，观测频数合计为60，期望频数各类别相等，均为10。图4.7图4.7中，最上方Test Statistics为表格名称，即检验统计量表，为最终的检验结果，给出了卡方值、自由度和近似的显著性p值。结果显示卡方检验统计量微14.800，近似的p值为0.011 ，因此，在0.05的显著性水平下，结论为拒绝原假设，认为一周内机床发生故障的频数不是服从均匀分布的。二、用Crosstabs过程进行独立性检验激活数据管理窗口，定义变量名：sex（性别）为列变量，region（地区）为行变量，count为频数变量（行列对应的频数值）。切换到Variab

15、le View中，定义变量值标签，在sex变量中，1表示男性，2表示女性，在region变量中，1表示北京，2表示天津，3表示河北，4表示山西，5表示内蒙古，再切换到Data View中，按顺序输入相应的变量，结果见图4.8。图4.8点击Data菜单选Weight Cases.命令项，弹出Weight Cases对话框（如图4.9），选Weight cases by，再选count点击钮使之进入Frequency Variable框，定义count变量为权数，再点击OK钮即可。图4.9选择Analyze/ Descriptive Statistics/Crosstabs，打开crosstabs对话框，如图4.1

展开阅读全文