显著性水平的含义－金锄头文库

资源描述

《显著性水平的含义》由会员分享，可在线阅读，更多相关《显著性水平的含义（6页珍藏版）》请在金锄头文库上搜索。

1、显著性水平的含义张小天本文澄清了假设检验中的显著性水平的确切含义。显著性水平是指零假设为真的情况下,假设检验这种方法形成结论以及犯错误的概率;是指零假设为伪的情况中,假设检验形成正确结论的最小概率。而最重要的是,显著性水平是指假设检验这种方法在各种可能的情况中形成结论的最小概率,以及犯错误的最大概率。作者:张小天,男,1956年生,浙江大学哲学社会学系副教授。一在社会学研究的许多场合,我们要接触到显著性水平这个概念:在对样本资料进行统计分析和报告统计结果时,要频繁地使用它;在阅读统计报告时,也要经常依据它做出判断。在这些时候,对于显著性水平的含义的透彻了解有助于明晰我们思考问题的思路、把

2、握信息的内容。从更宽泛的视野来看,透彻地了解显著性水平的含义,对于我们在确定研究方案时是否选用统计方法以及适用何种统计方法,对于我们衡量统计在社会学研究中的价值,也具有相当的意义。众所周知,显著性水平是针对假设检验而言的;它是指在假设检验中错误地否定正确的假设的概率,是指当假设正确时否定假设的可能。但是,尚没有被清楚地回答的更进一步的问题是:显著性水平这个概率是不是指在假设检验中犯错误的概率?是不是指否定假设时犯错误的概率、即结论为错误的概率?是不是指否定假设的概率?这个概率是针对所使用的假设检验的方法而言的、还是针对由假设检验已获得的结论而言的?此外,这个概率有没有进一步引申的含义,我们

3、能不能从中获知一些其它的内容?鉴于已有许多社会学研究、而且将会有更多的社会学研究要不断地触及到显著性水平这个概念,可能用一篇不太长的文章来澄清这些问题是值得的。二显著性水平是针对假设检验而言的一种犯错误的概率,而假设检验是统计推论的一种。13由于概率总是针对某种条件而言的,总是针对某种随机试验的,这几个问题也可以概括为:显著性水平这个概率是针对什么条件、针对何种随机试验而言的?非常感谢李哲夫教授给予的评论。李教授对我初期看法的评论指出了我当时的错误,激励我进行了更多的思考;后来对本文初稿的评论又指出了我在叙述方式的不足之处。社会学研究1997年第2期另一种也涉及到犯错误的概率的统计推论

4、是区间估计。由于我们对于区间估计中犯错误的概率以及用来表示这个概率的置信水平的含义已有了较为全面的了解,所以先复述一下区间估计中置信水平的确切含义,并将此含义做一个引申,以做为探讨我们当前问题的一些参照,可能是有益的。当总体均值为时,样本均值X有一个相应的抽样分布。设X落在周围范围内的概率为0195 ,由于随机事件-X + 等于随机事件X - X +,所以距离X 不超过的概率为0195 :P(X - X +) = P(-X +) = 0195。于是,我们可以利用任何一个抽样结果X做出区间估计:在0195置信水平上,落在置信区间X -,X+ 内。在这里,置信水平0195是指我们所采

5、用的这种区间估计的方法正确的可能是0195 ;即如果我们以一个样本均值X为中心,以为半径划完一个区间,并指出总体均值将落在这个置信区间X-,X+ 内,那么这种推论总体的断言方式产生错误结论的概率为1 - 0195 = 0105。置信水平这个概率并不是用于描述在一个抽样之后已经获得的具体结论。一个由区间估计产生的具体推论是由一个已获得的样本均值X形成,这个结论要么正确、要么错误,无所谓概率可言。置信水平是针对区间估计的方法而言的。它所针对的随机试验是在随机抽样之后依据样本均值X断言总体均值落在置信区间X-,X+ 内。在这个随机试验中,做出断言的区间估计方法是确定的,但样本、样本均值

6、、置信区间、结论的内容以及结论的正确与否是随机的。如果从频率的角度理解概率,那么在0195置信水平上的置信区间为X-,X+ 就是指,由于每100次抽样和区间估计中会有约95次抽样的结果满足 -X +,所以由这约95次抽样所做出的区间估计,也就是会有约95次区间估计X- X+ 将是正确的。统计推论是由样本资料来推知总体参数的取值,使我们对总体的状况有某种了解。而获知取值也就是测量。因此也可以认为统计推论是一类测量的方法,是利用对样本的测量实现对总体参数的测量。从这个角度看,区间估计是这类测量方法中的一种,其测量结果是指出总体参数所在的区间。不同置信水平的区间估计就是不同的区间估计测

7、量方法;我们可以对这种测量方法的置信水平做出选择。置信水平表明了所选用的区间估计测量方法产生正确测量结果和错误测量结果的概率;表明了多次重复使用所选择的测量方法时出错的大概比例是多少。因此可以认为,置信水平标识了用来测量总体的区间估计测量方法的效度;置信水平越高,测量方法出错的可能越小,测量方法的效度越高。三假设检验是另外一种对总体参数做出断言的方法。这种方法是将我们在验证理论时所使用的最为基本的假设检验推理方式,也就是在逻辑学上标为 “否定后件假言三段论”,或在数学上称为 “反证法” 的推理形式,衍生到假言概率命题上所形成的推论方法。衍生的原则是以同23 区间估计这种测量方法的信度

8、与统计量抽样分布的方差及区间估计的置信区间大小有关:抽样分布方差越小,置信区间越大,则信度越高。在样本容量一定下,由于置信区间与置信水平成正向关系,所以这种测量方法的信度与效度并不存在紧张关系,而是同方向变化。但它们与测量的精度有紧张关系。参见布莱洛克著,傅正元等译:社会统计学,中国社会科学出版社1988年版,第203 - 206页;D1S1Moore ,Statis2 tics(New York:W1H1Freeman and Company;1979) ,pp275 - 276 ;卢淑华:社会统计学,北京大学出版社1989年版,第242 - 245页,第248 - 250页。其实,样

9、本均值、置信区间、结论的内容及结论的正确与否都是样本的函数,所以必定也是随机的。样的方法对待概率相近的事件;具体地说,可以认为是采用了小概率原理:在一次观察中,小概率事件不可能发生。当我们想了解总体均值的取值时,先依据研究的目标或以往的研究结论选取一个值0,做出零假设=0。如果该假设成立,则样本均值X有一个特定的抽样分布,设X落在区间 0-,0+ 的概率为0195。在零假设成立时,虽然不能肯定一次抽样的X一定落在区间 0-,0+ 内,但落在此区间的概率极大;而X落在此区间之外、即落在否定域中的可能性接近于0。在一次抽样后,如果X落入否定域,则我们否定零假设,并断言 0;如果X落在否定

10、域之外、即落在区间 0-,0+ 内,则不否定零假设,不做出关于总体均值的任何结论。这就是一个显著性水平为0105的假设检验。在这种推论方法中,尽管 “ =0” 和 “X落在 0-,0+ 内” 这两个命题以极大的概率相联系,但它们的关系仍是随机的;它们之间不存在演绎推论关系。因此这种假设检验断言方法具有可能产生错误的结论。很容易看到的是,显著性水平就是零假设成立时一次抽样的X落入否定域的概率,也就是零假设为真时否定零假设的概率,即错误地否定正确的假设的概率。但应该特别注意到,这个概率是针对这样的前提条件的:零假设为真,即总体均值确实等于我们做零假设时所选定的0。它是指在这个条件下,依据

11、样本均值X是否落在否定域来决定是否否定零假设的这种断言方法将否定零假设,将出现错误断言的概率。它所针对的随机试验是在这个条件下进行一次随机抽样,然后采用这种断言方式对总体参数做出推断。在这个随机试验中,零假设、零假设为真以及做出断言的方式是确定的,而样本、样本均值X、X是否落入否定域、是否否定零假设、是否产生结论即是否产生错误结论则是随机的。因此显著性水平是指零假设为真的条件下假设检验这种断言方法犯错误的概率。而且这时我们还易于看到,显著性水平是针对假设检验的方法而言的,并不是针对由此方法已经获得的结论;它不是指结论是错误结论的概率。在这个条件下,进行假设检验的结果要么是没有结论

12、,要么是形成否定零假设的结论;在形成结论的情况下,结论必定是错误的。也就是说,在零假设为真的条件下,假设检验不能产生正确的结论,这种方法产生正确结论的概率为0。而显著性水平0105也表明,在这个条件下假设检验方法不能产生关于总体参数的结论的概率为1 - 0105 =0195。从频率的角度看,假设检验的显著性水平为0105表明,当零假设恰好正确时,用多次抽样做多次假设检验,则在每100次抽样和假设检验中,会有约95次抽样的假设检验形不成关于总体的结论,会有约5次抽样的假设检验产生结论,但都是错误结论;或者说,在每100次假设检验中,我们会犯约5次错误。那么,当总体均值不等于0,从而零假设为

13、真这个条件不成立时情况会怎样呢?这时样本均值X仍有一个相应的抽样分布,X落在由零假设划定的否定域的概率大于显著性水平0105 ,落在否定域之外,即落入 0-,0+ 的概率小于0195。依据假设检验中设定的断33在这各项当中,后面的一项总是前面的一项的函数,所以各项都是随机的。当X落入否定域之外时不去肯定零假设、不做出关于总体均值的结论,这是绝大多数社会学研究中的通行做法,也是许多人所主张的做法(比如布莱洛克:社会统计学,第106页)。但这样的做法却并不是将回避开逻辑学中称为 “承认后件谬误” 的错误推理形式衍生到这里的结果。我们这样做的原因有两个:一是当X落入否定域外时就肯定零假设的推

14、论方法犯乙种错误的最大概率极高,接近于0195 ;二是大多数社会学研究并不是处在决策情景中,并不是必须做出一个关于总体的结论。否定后件假言三段论的推理形式为:若P则q ,非q ,所以非P。而在统计中的假设检验推论方法为:若P则极可能 q ,非q ,所以非P。其中前者的大前提陈述了一个必然联系。后者的大前提是一个假言概率命题,陈述的是随机关系,只是其后件以极大的概率与其前件相联。言方式,我们可能否定这个错误的零假设,断言 0,从而获得正确结论;也可能形不成关于总体参数的任何结论;但不论怎样,都不会产生错误结论。在这种情况下,假设检验这种方法产生正确结论的概率及不能形成结论的概率还取决于实

15、际的值与我们选定的0值的距离:这个距离越大,则产生正确结论的概率越大,直至接近于1 ;形不成结论的概率越小,直至接近于0。而当我们进行社会学研究时,真实的值是未知的。因此在零假设为伪的情况下, 虽然存在着假设检验能否形成结论的概率,但我们只能知道这种方法否定零假设,即产生正确结论的概率大于0105 ,形不成关于总体的结论的概率小于0195。实际上的总体均值可能等于0,也可能不等于0;即实际状况可能与零假设相符,也可能不相符。虽然我们不知道是哪种情况出现,但我们并不把是否等于0看成是随机现象。在假设检验的视野中,总体均值、我们选定的0以及是否等于0是既定的,不存在=0 及 0的概率。只

16、有样本以及抽样的后续结果是随机事件。而且我们所谈论的各种概率都是针对=0和 0中的某一个条件而言的。这样,由显著性水平为0105 ,我们可以知道:当实际情况为=0,即零假设为真时,假设检验能够形成关于总体的结论的概率为0105、即犯错误的概率为0105 ,得不出结论的概率为0195 ,但不会产生正确结论,即产生正确结论的概率为0 ;当实际情况为 0,即零假设为假时,假设检验能够形成结论的概率大于0105 ,即得出正确结论的概率大于0105 ,而且与0 相距越远,这个概率越大,假设检验得不出结论的概率小于0195 ,但不会产生错误结论,即犯错误的概率为0。然而,在假设检验产生出结论的情况下,结论是错误还是正确取决于零假设是真还是伪。

展开阅读全文