mba统计学非参数检验ppt培训课件

上传人:aa****6 文档编号:54382612 上传时间:2018-09-12 格式:PPT 页数:91 大小:493.50KB
返回 下载 相关 举报
mba统计学非参数检验ppt培训课件_第1页
第1页 / 共91页
mba统计学非参数检验ppt培训课件_第2页
第2页 / 共91页
mba统计学非参数检验ppt培训课件_第3页
第3页 / 共91页
mba统计学非参数检验ppt培训课件_第4页
第4页 / 共91页
mba统计学非参数检验ppt培训课件_第5页
第5页 / 共91页
点击查看更多>>
资源描述

《mba统计学非参数检验ppt培训课件》由会员分享,可在线阅读,更多相关《mba统计学非参数检验ppt培训课件(91页珍藏版)》请在金锄头文库上搜索。

1、统计学,从数据到结论,第十六章 非参数检验,16.1 关于非参数的一些常识,经典统计的多数检验都假定了总体的背景分布。 但在总体未知时,如果假定的总体和真实总体不符,那么就不适宜用通常的检验 这时如果利用传统的假定分布已知的检验,就会产生错误甚至灾难。,无需假定总体分布的具体形式,仅仅依赖于数据观测值的相对大小(秩)或零假设下等可能的概率等和数据本身的具体总体分布无关的性质进行的检验都称为非参数检验(nonparametric testing)。,16.1 关于非参数的一些常识,这些非参数检验在总体分布未知时有很大的优越性。它总是比传统检验安全。 在总体分布形式已知时,非参数检验不如传统方法效

2、率高。这是因为非参数方法利用的信息要少些。往往在传统方法可以拒绝零假设的情况,非参数检验无法拒绝。 但非参数统计在总体未知时效率要比传统方法要高,有时要高很多。是否用非参数统计方法,要根据对总体分布的了解程度来确定。,这里介绍一些非参数检验。 关于非参数方法的确切定义并不很明确。我们就其最广泛的意义来理解。 在计算中,诸如列联表分析中的许多问题都有精确方法,Monte Carlo抽样方法和用于大样本的渐近方法等选择。精确方法比较费时间,后两种要粗糙一些,但要快些。,秩(rank),非参数检验中秩是最常使用的概念。什么是一个数据的秩呢?一般来说,秩就是该数据按照升幂排列之后,每个观测值的位置。例

3、如我们有下面数据,这下面一行(记为Ri)就是上面一行数据Xi的秩。,秩(rank),利用秩的大小进行推断就避免了不知道背景分布的困难。这也是非参数检验的优点。 多数非参数检验明显地或隐含地利用了秩的性质;但也有一些非参数方法没有涉及秩的性质。,16.2 单样本检验 16.2.1单样本中位数(a-分位数)符号检验,我们知道某点为中位数(a-分位数)意味着一个数小于该点的概率应该为0.5(a). 因此,一个观测值小于该点(或与该点之差的符号为负号)的概率为0.5(a)。 这就是符号检验名称的来源,并与二项分布有关。,例:数据gs.txt,例16.1 质量监督部门对商店里面出售的某厂家的西洋参片进行

4、了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克):,99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37 96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36 100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79,数据gs.txt,样本中位数为m=98.36。因此,人们怀疑厂家包装的西洋参片份量不足。由于对于这些重量的总体分布不清楚,决定对其进行符号检验。需要检验的是:,数据gs.txt,按照零假设,每个观测值(每包西洋

5、参的净重)大于中位数m0=100g的机会和小于100g的概率都是0.5。这服从二项分布Bin(25,0.5)。 重于100g的只有8包。这样的二项分布变量小于或等于8的概率为0.05388。这就是p-值。 因此, 对于水平a=0.05, 根据这个符号检验,没有充分的证据拒绝零假设。,数据gs.txt,SPSS输出的结果在下面表格中。从该表格可以看出精确的双边检验的p-值=0.108(精确地为0.1078);也就是说,我们的单尾检验的p-值为其一半。,数据gs.txt,另一种输出来自于SPSS的另一种选项:,SPSS软件使用,这里有两种选项方式: 1.以数据gs.sav为例。直接使用SPSS选项

6、AnalyzeNonparametric TestsBinomial,再把变量gsweight选入Test Variable List,然后在下面Define Dichotomy的Cut point输入100(克),在下面Test Proportion输入p0=0.50(零假设大于100小时的比例);还可以点击Exact来选择精确检验,渐近检验和Monte Carlo方法等,然后OK即可得到前面显示的结果。,SPSS软件使用,2. 数据gs.sav有一列(变量名为m),这是重复零假设的100g使得m的长度和gsweight一样。然后利用选项AnalyzeNonparametric TestsR

7、elated Samples,再把变量gsweight和m同时选入Test Pair(s) List之中,再在下面选Sign及在Exact中选Exact;然后回到主对话框,OK即可。得出前面的第二个输出。,16.2 单样本检验 16.2.2单样本位置参数的Wilcoxon符号秩检验,符号检验只用了差的符号,但没有利用差值的大小。 Wilcoxon 符号秩检验(Wilcoxon signed-rank test) 把差的绝对值的秩分别按照不同的符号相加作为其检验统计量。 它利用了更多的信息。,16.2 单样本检验 16.2.2单样本位置参数的Wilcoxon符号秩检验,Wilcoxon符号秩检验

8、需要一点总体分布的性质;它要求假定样本点来自连续对称总体分布;而符号检验不需要知道任何总体分布的性质。 在对称分布中,总体中位数和总体均值是相等的;因此,对于总体中位数的检验,等价于对于总体均值的检验。,假定x1,x2, xn为来自连续对称总体。如果零检验为中位数(均值)m = m0。 把满足xi-m00的|xi-m0|的秩求和,并用W+表示。如果m0的确是中位数,那么,W-和W-应大体差不多。 如果W-或者W+过大或过小,则应该怀疑中位数m = m0的零假设。 令W=min(W-,W+),则当W太小时,应该拒绝零假设。这个W就是Wilcoxon符号秩检验统计量。,例:数据gs.txt,例16

9、.1 质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克):,99.05 100.25 102.56 99.15 104.89 101.86 96.37 96.79 99.37 96.90 93.94 92.97 108.28 96.86 93.94 98.27 98.36 100.81 92.99 103.72 90.66 98.24 97.87 99.21 101.79,例16.1:数据gs.txt(继续),利用SPSS,很容易得到该数据的Wilcoxon符号秩检验结果 (Wilcoxon符号秩检验精确(单尾)的p-值为0.

10、047 ):,软件使用说明,利用例16.1数据(gs.txt或gs.sav)。该数据有一列(变量名为m),这是重复零假设的100g使得m的长度和gsweight一样。然后利用选项AnalyzeNonparametric TestsRelated Samples,再把变量gsweight和m同时选入Test Pair(s) List之中,再在下面选Wilcoxon及在Exact中选Exact;再回到主对话框,OK即可。,16.2.3 单样本Kolmogorov-Smirnov检验,单样本的Kolmogorov-Smirnov检验(K-S检验)是用来检验一个数据的观测累积分布是否是已知的理论分布。

11、 这些作为零假设的理论分布在SPSS的选项中有正态分布,Poisson分布,均匀分布和指数分布。在SPSS软件中对于是否是正态分布或均匀分布的检验统计量为,数据ksdata.sav的K-S检验,我们检验它是否是正态分布、均匀分布和指数分布。输出结果分别显示在下面三个表中:,单边检验的p-值等于0.074/2=0.037(渐近检验)和0.069/2=0.0345(精确检验)。如果按照显著性水平为0.05的标准,可以拒绝产生数据的总体为正态分布的零假设。,p-值等于0.000(渐近检验)和0.000(精确检验)。如果按照显著性水平为0.05的标准,可以拒绝产生数据的总体为均匀分布的零假设。,p-值

12、等于0.664/2=0.332(渐近检验)和0.662/2=0.331(精确检验)。如果按照显著性水平为0.05的标准,不能拒绝产生数据的总体为指数分布的零假设。,警告,经常有人在Kolmogorov-Smirnov检验中,当检验不能拒绝总体分布为某分布时,来“接受”或“证明”该样本来自该分布。这是错误的。 比如我们有由1、2、3、4、5五个数目组成的数据,我们分别检验该数据是否是正态分布、均匀分布、Poisson分布或指数分布。结果归纳为下表(读者可以自己练习去算),Kolmogorov-Smirnov单样本分布检验 零假设的分布 (渐近双边检验的)p-值 正态分布 1.000 均匀分布 0

13、.988 Poisson分布 1.000 指数分布 0.806,根据此表,没有足够证据来拒绝任何一个零假设。难道我们可以随意“接受”该总体为其中任一个分布吗?,SPSS软件使用说明,使用我们的ksdata.sav数据。 选项为AnalyzeNonparametric Tests1 Sample K-S。 然后把变量(这里是x)选入Variable List。再在下面Test Distribution选中零假设的分布(Normal、Poisson、Uniform和Exponential)作为零假设。 在点Exact时打开的对话框中可以选择精确方法(Exact),Monte Carlo抽样方法(M

14、onte Carlo)或用于大样本的渐近方法(Asymptotic only)。最后OK即可。,16.2.4 关于随机性的游程检验(run test),游程检验方法是检验一个取两个值的变量的这两个值的出现是否是随机的。假定下面是由0和1组成的一个这种变量的样本(数据run1.sav): 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。,关于随机性的游程检验(run

15、 test),出现0和1的的这样一个过程可以看成是参数为某未知p的Bernoulli试验。但在给定了m和n之后,在0和1的出现是随机的零假设之下,R的条件分布就和这个参数无关了。根据初等概率论,R的分布可以写成(令N=m+n),关于随机性的游程检验(run test),于是就可以算出在零假设下有关R的概率,以及进行有关的检验了。利用上面公式可进行精确检验;也可以利用大样本的渐近分布和利用Monte Carlo方法进行检验。利用上面数据的结果是,关于随机性的游程检验(run test),当然,游程检验并不仅仅用于只取两个值的变量,它还可以用于某个连续变量的取值小于某个值及大于该值的个数(类似于0

16、和1的个数)是否随机的问题。看下面例子。 例 (run2.sav): 从某装瓶机出来的30盒化妆品的重量如下(单位克) 71.6 71.0 71.8 70.3 70.5 72.9 71.0 71.0 70.1 71.8 71.9 70.3 70.9 69.3 71.2 67.3 67.6 67.7 67.6 68.1 68.0 67.5 69.8 67.5 69.7 70.0 69.1 70.4 71.0 69.9 为了看该装瓶机是否工作正常,首先需要验证是否大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。,关于随机性的游程检验(run test),如果把小于中位数的记为0,否则记为1,上面数据变成下面的01序列 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 这就归为上面的问题。当然这里进行这种变换只是为了易于理解。实际计算时,用不着这种变换,计算机会自动处理这个问题的。 直接利用这个数据,通过SPSS,得到下面游程检验结果的输出。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号