文档详情

资料的正态性检验汇总

平***
实名认证
店铺
DOC
288.64KB
约10页
文档ID:14941807
资料的正态性检验汇总_第1页
1/10

资料的正态性检验汇总S PSS 和 SAS 常用正态检验方法一、图示法1、 P-P 图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点如果资料服从整体分布,则样本点应围绕第一象限的对角线分布2、 Q-Q 图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线以上两种方法以 Q-Q 图为佳,效率较高3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线4、箱式图判断方法:观测离群值和中位数5、茎叶图类似与直方图,但实质不同二、计算法1、偏度系数(Skewness )和峰度系数(Kurtosis)计算公式:g1 表示偏度,g 2 表示峰度,通过计算 g1 和 g2 及其标准误 σg1 及 σg2 然后作 U 检验两种检验同时得出 U0.05 的结论时,才可以认为该组资料服从正态分布由公式可见,部分文献中所说的“偏度和峰度都接近 0……可以认为…… 近似服从正态分布”并不严谨2、非参数检验方法非参数检验方法包括 Kolmogorov-Smirnov 检验(D 检验)和 Shapiro- Wilk (W 检验) 。

SAS 中规定:当样本含量 n ≤2000 时,结果以 Shapiro – Wilk(W 检验)为准,当样本含量 n >2000 时 ,结果以 Kolmogorov – Smirnov(D 检验)为准SPSS 中则这样规定:(1 )如果指定的是非整数权重,则在加权样本大小位于 3 和 50 之间时,计算 Shapiro-Wilk 统计量对于无权重或整数权重,在加权样本大小位于 3 和 5000 之间时,计算该统计量由此可见,部分 SPSS 教材里面关于“ Shapiro – Wilk 适用于样本量 3-50 之间的数据”的说法实在是理解片面,误人子弟 (2 )单样本 Kolmogorov-Smirnov 检验可用于检验变量(例如income)是否为正态分布对于此两种检验,如果 P 值大于 0.05,表明资料服从正态分布三、SPSS 操作示例SPSS 中有很多操作可以进行正态检验,在此只介绍最主要和最全面最方便的操作:1、工具栏--分析—描述性统计—探索性2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项(Both ) 。

3、 Output 结果(1 ) Descriptives:描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布Sk=0,K u=0 时,分布呈正态,Sk>0 时,分布呈正偏态,Sk0 曲线比较陡峭,Ku 0 时, 分布呈正偏态,S k 5000 结果以 Kolmogorov - Smirnov 为准而 SAS 规定: 当样本含量 n ≤2000 时,结果以 Shapiro - Wilk (W 检验) 为准,当样本含量 n >2000 时,结果以 Kolmogorov - Smirnov (D 检验) 为准问:对照组和病例组都是 20 例,拟对某指标进行正态性检验,是用Kolmogorov-Smirnov 检验(简称 K-S 检验) ,还是 Shapiro-Wilk 检验?已用 K-S检验不能认为该指标不是正态分布,但是 Shapiro-Wilk 检验表明其为非正态分布,我该相信哪个检验结果?答:Kolmogorov-Smirnov 检验:检验频数分布的正态性检验,适合大样本Shapiro-Wilk 检验:小样本数据的正态性检验矩法正态性检验: 不限样本问:用 SPSS 中 analysze/discriptive statistics/explore 法和用 analyze/nonparametric tests/1-sample K-S 法评价正态性,结果不完全相同,为什么?答:以第二个为准,第一种方法是参数检验,而第二种是非参数检验,第一种是在知道总体分布的情况下做的,第二种是在不知道总体分布的情况进行的检验,而且大多数的检验,我们都是不知道总体分布到底是什么才做的 K-S 检验。

因此在做分析的时候一般用第二种,标准的检验单样本分布的方法不过一般推荐用上面的,并且和 SAS 的结果比较吻合同时样本量小的时候选 S-W 的结果,至于结果的不同,应该是不同的方法算出的值不同,这很正常,因为这几个方法的数学表达式就不一样,中间对数据的处理也不一样,会有信息损失等原因的,在正态检验中,尤其是接近 α 水准时,往往容易出现问题,所以要根据资料的性质判断用什么方法进行检验更合适不是把所有的方法都做一遍对于到底 P 取多少才有意义,说法有好多种,常用的是 0.1 吧,SPSS 自带的是 0.2的界值其实还是得结合 ,PP 图之类的来观察会好些小样本最好不要看Kolmogorov-Smirnov 的结果,常常会有问题,Shapiro-Wilk 的结果会好些补充:如果根据国标,其偏态和峰态算法,其值为多少时符合正态别有规定呢?K-S 检验记得在资料上见过 85000 结果以Kolmogorm —Smimov(D 检验)为准SAS 规定:当样本含量 n≤2000 时,结果以 Shapim—Wilk(W 检验)为准,当样本含量 n>2000 时,结果以Kolmogorov—Smimov(D 检验)为准。

在 SPSS 和 SAS 等统计分析软件中,通常用统计描述模块中的 Shapiro-Wilk 检验、经过 Lilliefors 显著水平修正的Kolmogorov—Smirnov 检验和非参数检验模块中的单一样本 Kolmogorov—Smirnov 检验进行正态性判定但是这几种检验方法存在以下几方面的问题1)在实际应用中常出现检验结果与直方图、正态性概率图不一致,甚至几种假设检验方法结果完全不同的情况2)Shapiro—Wilk 检验(Ⅳ 检验)和经过 Lilliefors 显著水平修正的 Kolmogorov—Smirnov 检验(D 检验)是用一个综合指标(顺序统计量Ⅳ 或 D)来判定资料的正态性由于两种方法都是用一个指标反映资料的正态性,所以当资料的正态峰和对称性两个特征有一个不满足正态性要求时,两种方法出现假阴性错误的机率均较大;而且两种方法的检验统计量都是进行大小排序后得到,所以易受异常值的影响3)Kolmogorov—Smirnov 单一样本检验是根据实际的累计频数分布和理论的累计频数分布的最大差异来检验资料的正态性,可对正态分布进行拟合优度检验但它并非检验正态性的专用方法,因此它的检验效率是最低的,最容易受样本量和异常值等因素的影响。

没有修正的 K-S 检验的原始公式里面,检验的既是标化后的数据是否服从理论的分布正态性检验(上)2008-04-25 10:451. 样本量较大时的结果:运用的数据是 SPSS13.0Data 里面的 diameter_sub.sav,样本含量是 216对数据分别支用 SAS 和 SPSS 进行正态性检验:1.1 SAS 中用 Proc univariate normal;命令结果如下:Tests for NormalityTest --Statistic--- -----p Value------Shapiro-Wilk W 0.993604 Pr D 0.0789其中 SAS 中 SAS 规定:当样本含量 n ≤2000 时,结果以 Shapiro - Wilk (W 检验) 为准,当样本含量 n >2000 时,结果以 Kolmogorov - Smirnov (D 检验) 为准1.2 SPSS 里面用 Explor 过程 Plots 选项中 Normality Plots with tests结果如下:Tests of NormalityKolmogorov-Smirnov(a) Shapiro-WilkStatistic df Sig. Statistic df Sig.AP diameter(mm) .058 216 .070 .994 216 .476a Lilliefors Significance Correction对于 SPSS 结果选用哪个方法,我看的资料并不一致:在 SPSS13.0 书上以样本量≤50,选 Shapiro - Wilk 检验, (而有文献 SPSS 说样本含量 3 ≤n ≤5000 时,结果以 Shapiro - Wilk (W 检验) 为准,有出入)1.3 在 SPSS13.0 中单样本的 K-S 拟合优度检验讲到:可以用来检验样本的分布是否服从某种理论分布――可以是正态、均匀等。

用上述例子选 Normal 分布进行计算结果如下:One-Sample Kolmogorov-Smirnov TestAP diameter(mm)N 216Mean 14.4421Normal Parameters(a,b)Std. Deviation .71728Absolute .058Positive .032Most Extreme DifferencesNegative -.058Kolmogorov-Smirnov Z .859Asymp. Sig. (2-tailed) .451a Test distribution is Normal.b Calculated from data.。

下载提示
相似文档
正为您匹配相似的精品文档
相关文档