从数据到结论(人民大学吴喜之教授)03统计推断s

资源描述

《从数据到结论(人民大学吴喜之教授)03统计推断s》由会员分享，可在线阅读，更多相关《从数据到结论(人民大学吴喜之教授)03统计推断s（56页珍藏版）》请在金锄头文库上搜索。

1、统计推断,从数据得到对现实世界的结论的过程,估计,总体代表我们所关心的那部分世界。而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定) 比如假定人们的身高属于正态分布族；在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。这些模型基本上是根据“经验”来假定的，仅仅是对现实世界的一个近似。,估计,在假定了总体分布族之后，进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员由于分布族成员是由参数确定的，如果参数能够估计，对总体的具体分布就知道得差不多了。,估计量是用来估计的统计量,我们知道，统计量是样本的不包含未知参数的函数

2、。样本均值、样本标准差都是统计量。由于样本是随机的，统计量也是随机变量。用于估计总体参数的统计量称为估计量；样本均值和标准差都是总体均值和标准差的常用估计量。,点估计和区间估计,点估计(point estimation)就是用估计量的实现值来近似相应的总体参数。区间估计(interval estimation) 是包括估计量在内（有时是以估计量为中心）的一个区间；被认为很可能包含总体参数。点估计给出一个数字，用起来很方便；而区间估计给出一个区间，说起来留有余地；不象点估计那么绝对。无偏估计(大样本性质),区间估计,注意置信区间的论述是由区间和置信度两部分组成。置信区间是对参数给出的

3、一个范围置信度为其可信程度(大样本意义) 有些新闻媒体报道一些调查结果只给出百分比和误差（即置信区间），比如 “收视率为53%3%”; 不给出置信度，也不给出被调查的人数这是不负责的表现。,区间估计,降低置信度可以使置信区间变窄（显得“精确”），有误导读者之嫌。如果给出被调查的人数，则内行可以由此推算出置信度，反之亦然。,一个描述性例子,一个有10000个人回答的调查显示，同意某种观点的人的比例为70%（有7000人同意），可以算出总体中同意该观点的比例的95%置信区间为（0.691，0.709）；另一个调查声称有70%的比例反对该种观点，还说总体中反对该观点的置信区间也是(0.691

4、，0.709)。,一个描述性例子,实际上，第二个调查隐瞒了置信度（等价于隐瞒了样本量）。如果第二个调查仅仅调查了50个人，有35个人反对该观点。根据后面的公式可以算出，第二个调查的置信区间的置信度仅有11%。,区间估计的意义,置信度的概念大量重复抽样时的一个渐近概念。类似于“我们目前得到的置信度为95%的置信区间（比如上面的75%3%）以概率0.95覆盖真正的比例p”的说法是错误的。实际上应该说“重复类似的抽样所得到的大量区间中有大约95%的覆盖真实比例(其值可能永远未知)。,区间估计的意义,这里的区间（72%，78%）是固定的，而总体比例p也是固定的值。因此只有两种可能：或者该区间

5、包含总体比例，或者不包含；这当中没有任何概率可言。至于区间（72%，78%）是否覆盖真实比例，除非一个不漏地调查所有的人，否则永远也无法知道。,均值m的区间估计（正态分布）,总体标准差s已知,总体标准差s未知,区间估计的例子（1）,例5.1 （数据：noodle.txt, noodle.sav, noodle.sas7bdat）某厂家生产的挂面包装上写明“净含量450克”。在用天平称量了商场中的48包挂面之后，得到样本量为48的关于挂面重量（单位：克）的一个样本(我们假定，挂面重量所代表的总体分布服从正态分布。 )：,w=scan(“D:/booktj1/data/noodle.txt“)

6、;hist(w,10),summary(w)Min. 1st Qu. Median Mean 3rd Qu. Max. 439.6 444.6 448.9 449.0 452.6 461.1,SPSS,不同样本量和不同置信度的置信区间的长短和覆盖状况,例5.2 （数据：height2.txt, height2.sav, height21.sav, height22.sas7bdat）这是两个地区大学生的高度数据；这里，我们假定身高服从正态分布。在height2.sav数据中这两个地区学生的高度分别用变量x1和x2表示。而在height21.sav数据中，它们为一个变量height，但用另一个变

7、量group来标明它们属于哪个地区。,区间估计的例子（2）,（a）我们想要分别得到这两个总体均值和标准差的点估计（即样本均值和样本标准差）和各自总体均值的95%置信区间。利用height2.sav，SPSS得到：作为两个总体均值估计量的样本均值分别为170.56和165.60，而样本标准差分别为6.97857和7.55659；还得到均值的置信区间分别是(168.5767, 172.5433)及(163.4524, 167.7476)。（计算机输出很容易明白，这里不显示。） (b)求两个均值差m1-m2的点估计和95%置信区间。根据数据height2.sav，利用软件很容易得到下面结果,区间估计

8、的例子（2）,输出表的头两列是检验（见下面一章的检验）是否方差相等，如果Sig下面的数目（下一章的p值概念）较大（比如大于0.05）则没有证据认为这两个数据总体的方差不等，则看表的第一行结果，否则认为方差不等，则看表的第二行结果。这里Sig（p值）等于0.556，因此看第一行结果。于是，我们得到两个样本均值的差(4.9600)，另外还给出了两总体均值差的95%置信区间(2.073，7.847)。,总体比例（Bernoulli试验成功概率）p的区间估计（大总体、大样本）,例5.3 在一个大都市中对1341人的随机调查结果显示，有934个人支持限制小轿车的政策。假定该样本为简单随机样本，希望找出

9、总体中支持限制小轿车的人的比例的点估计及其置信度为95%的置信区间。,n=1341;x=934 CI1=function(n,x,alpha)p=x/n;za=qnorm(alpha/2,low=F) a=sqrt(p*(1-p)/n);b=za*a;L1=p-b;L2=p+b;list(1-alpha,L1,L2) CI1(n,x,.05) 得到(0.672, 0.721),总体比例（Bernoulli试验成功概率）之差 p1 -p2的区间估计（大样本、大总体）,例5.4 在两个地区对于某商品认可与否的调查结果显示，第一个地区被调查的950人中有423人认可，而在第二个地区的被调查的110

10、2人中只有215人认可。求这两个总体比例之差p1 -p2的95%置信区间。得到（0.211，0.289）,假设检验,在假设检验中，一般要设立一个原假设；而设立该假设的动机主要是企图利用人们掌握的反映现实世界的数据来找出假设和现实的矛盾，从而否定这个假设。,假设检验,在多数统计教科书中（除了理论探讨之外）,假设检验都是以否定原假设为目标。如否定不了，那就说明证据不足，无法否定原假设。但这不能说明原假设正确。很多教科书在这个问题上不适当地用“接受原假设”的说法，犯了明显的低级逻辑错误。 ,假设检验的过程和逻辑,首先要提出一个原假设，比如某正态总体的均值等于5（m=5）。这种原假设也称为零假设

11、（null hypothesis），记为H0 与此同时必须提出对立假设，比如总体均值大于5（m5）。对立假设又称为备选假设或备择假设（alternative hypothesis）记为记为H1或Ha,假设检验的过程和逻辑,根据零假设（不是备选假设！），我们可以得到该检验统计量的分布；然后再看这个统计量的数据实现值（realization）属不属于小概率事件。也就是说把数据代入检验统计量，看其值是否落入零假设下的小概率范畴如果的确是小概率事件，那么我们就有可能拒绝零假设，否则我们说没有足够证据拒绝零假设。,假设检验的过程和逻辑,注意：零假设和备选假设在我们涉及的假设检验中并不对称。检验统计量

12、的分布是从零假设导出的, 因此, 如果有矛盾, 当然就不利于零假设了。不发生矛盾也不说明备选假有问题。,假设检验的过程和逻辑,检验统计量在零假设下,等于这个样本的数据实现值或更加极端值的概率称为p-值（p-value）。显然得到很小p-值意味着小概率事件发生了。如果小概率事件发生，是相信零假设，还是相信数据呢？当然是相信数据。于是就拒绝零假设。但事件概率小并不意味着不会发生，仅仅发生的概率很小罢了。拒绝正确零假设的错误常被称为第一类错误（type I error）。,假设检验的过程和逻辑,不仅有第一类错误，还有第二类错误；那是备选零假设正确时反而说零假设正确的错误，称为第二类错误（ty

13、pe II error）。如要“接受零假设”就必须给出第二类错误的概率. 但对于目前面对的问题, 无法计算它.,假设检验的过程和逻辑,零假设和备选假设哪一个正确，这是确定性的，没有概率可言。而可能犯错误的是人。涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。负责的态度是无论做出什么决策，都应该给出犯错误的概率。,假设检验的过程和逻辑,到底p-值是多小才能够拒绝零假设呢？也就是说，需要有什么是小概率的标准。这要看具体应用的需要。但在一般的统计书和软件中，使用最多的标准是在零假设下（或零假设正确时）抽样所得的数据拒绝零假设的概率应小于0.05（也可能是0.01，0.

14、005，0.001等等）。,假设检验的过程和逻辑,这种事先规定的概率称为显著性水平(significant level)，用字母a来表示。当p-值小于或等于a时，就拒绝零假设。所以，a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时，我们说这个检验是显著的(significant)。,假设检验的过程和逻辑,归纳起来，假设检验的逻辑步骤为：第一: 写出零假设和备选假设；第二: 确定检验统计量；第三: 确定显著性水平a；第四: 根据数据计算检验统计量的实现值；第五: 根据这个实现值计算p-值；第六: 进行判断：如果p-值小于或等于a，就拒绝零假设，这时犯错误的概率最多为a

15、；如果p-值大于a，就不拒绝零假设，因为证据不足。,假设检验的过程和逻辑,实际上，计算机软件仅仅给出p-值，而不给出a。这有很多方便之处。比如a=0.05，而假定我们得到的p-值等于0.001。这时我们如果如果采用p-值作为新的显著性水平，即a=0.001，于是可以说，我们拒绝零假设，显著性水平为0.001。拒绝零假设时犯错误的概率实际只是千分之一而不是百分之五。在这个意义上，p-值又称为观测的显著性水平（observed significant level）。在统计软件输出p-值的位置，有的用“p-value”，有的用significant的缩写“Sig”就是这个道理。,假设检验的过程和逻辑

16、,关于“临界值”的注：作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值（critical value），它定义为，统计量取该值或更极端的值的概率等于a。也就是说，“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。,假设检验的过程和逻辑,使用临界值而不是p-值来判断拒绝与否是前计算机时代的产物。当时计算p-值不易，只有采用临界值的概念。但从给定的a求临界值同样也不容易，好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值（比如a=0.05，a=0.025，a=0.01，a=0.005

17、，a=0.001等等），或者根据分布表反过来查临界值（很不方便也很粗糙）。现在计算机软件都不给出a和临界值，但都给出p-值和统计量实现值，让用户自己决定显著性水平是多少。,假设检验的例子,例6.1（数据：sugar.txt, sugar.sav, sugar.sas7bdat）一个顾客买了一包标有500g重的一包红糖，觉得份量不足，于是找到监督部门；当然他们会觉得一包份量不够可能是随机的。于是监督部门就去商店称了50包红糖；得到均值（平均重量）是498.35g；这的确比500g少，但这是否能够说明厂家生产的这批红糖平均起来不够份量呢？首先，可以画出这些重量的直方图（图6.1）。这个直方图看上去象是正态分布的样本。于是不妨假定这一批袋装红糖呈正态分布。,

展开阅读全文

从数据到结论(人民大学吴喜之教授)03统计推断s

最新文档