第6章参数检验－金锄头文库

资源描述

《第6章参数检验》由会员分享，可在线阅读，更多相关《第6章参数检验（35页珍藏版）》请在金锄头文库上搜索。

1、第6章参数检验【学习目标】了解参数估计的含义。理解点估计和区间估计的含义。理解一个总体参数区间估计的几种情形和两个总体参数区间估计的几种情形。理解假设检验的基本原理。掌握SPSS中平均数比较与 T检验的操作方法：平均数分析过程，单样本T检验，独立样本T检验和配对样本 T检验。【引导案例】静静的顿河作者之争静静的顿河是前苏联文学史上首屈一指的战争名著，它全景式的描写了俄国内战时期顿河流域的社会景观，堪称不朽的史诗。但自从静静的顿河诞生之日起，围绕其作者所引起的争议就没有停止过。有人指控肖洛霍夫是个骗子，说静静的顿河不是肖洛霍夫所写，真正的作者是费奥尔克鲁乌科夫。挪威奥斯陆大学的前苏联文

2、学教授盖尔克其萨用计算机对静静的顿河进行了分析研究，其别具一格的论文曾发表在世界知名的权威杂志计算机与人文科学上，轰动一时。那么，克其萨教授怎样把统计学引入这本名著的研究的呢？克其萨教授与同事一起，对静静的顿河的文章风格和其他一些特点分别与肖洛霍夫和克鲁乌科夫的作品进行了统计分析。他们通过抽取的样品，研究了三个重要参数，为了对比，把肖洛霍夫的无可争议的作品作为第一组，静静的顿河作为第二组，克鲁乌科夫的作品作为第三组，其结果如表6-1所示。表6-1 文学风格统计表（单位：%）组别不同词汇量与总词汇量的百分比俄文中常见词汇与作品总词汇量的百分比作品中出现一次的词汇占总词汇量的百分比第一组

3、65.522.880.9第二组64.623.381.9第三组58.926.276.9根据表中的数据，所有参数都存在一致的趋势，即克鲁乌科夫的作品与静静的顿河之间，存在着显著的统计差异，所以，这部著作的真正作者很难说是克鲁乌科夫，相比之下，肖洛霍夫更像是静静的顿河的作者。本章介绍的内容可以帮助我们解决类似的问题。6.1参数估计6.1.1什么是参数估计估计就是根据所掌握的信息对客观世界进行某种判断。例如，根据一个人的衣着、言谈和举止判断其身份；根据上市公司公布的各种信息，估计其股票价格的走势等。统计中的估计是完全根据数据做出的判断，我们把用样本统计量去估计总体参数称为参数估计(par

4、ameter estimation)。例如，用样本平均数 x估计总体平均数，用样本标准差s估计总体标准差，用样本比例p估计总体比例。通常我们用表示总体参数，用？表示估计参数的统计量，当用？来估计时，？也称为估计量。根据一个具体的样本计算出来的估计量的数值称为估计值。例如，想要了解北京城市大学全体学生的英语成绩，抽取工商管理专业的100名学生作为样本，100名学生的平均成绩 x是一个估计量，若计算出来平均成绩是 80 分，则80分就是一个估计值。参数估计和假设检验一起构成了推断性统计的内容，它们在统计学中的地位如图 6-1所示。图6-1统计学基本内容构成图6.1.2点估计与区间估计参数估计

5、的方法有点估计和区间估计两种。1. 什么是点估计点估计(point estimation)就是将估计量？的某个取值作为总体参数的估计值，即直接用样本平均数X作为总体平均数，直接用样本标准差s作为总体标准差，直接用样本比例p作为总体比例。例如上例中将工商管理专业 100名学生的英语平均成绩 80分作为北京城市大学全体学生的英语成绩。点估计值代表总体参数值是直接给出一个具体数字，使用简便、直观。但是每次抽出一个样本就会产生一个估计值，每个估计值与总体参数的误差无法确定，即点估计的可靠性无法度量，因此点估计的使用有一定的缺陷，应该围绕点估计值构造总体参数的一个区间，这就是下面要介绍的

6、区间估计。2. 什么是区间估计现实生活中，人们在描述一个人的体重时，一般不会说其体重是76.35公斤，而是说他的体重是大概是七八十公斤，或者是在7080公斤之间。在描述员工的工资水平时，一般不会说员工的工资是 2500元，而是说员工的工资水平是20003000元，即给出一个上限或下限，这就是区间估计(interval estimation )。区间估计就是在点估计的基础上，给出总体参数的一个估计区间，该区间通常是由样本统计量加减估计误差(estimate error)得到。在区间估计中，根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。区间估计需要确定两个统计量

7、?和?分别来估计总体参数的下限和上限，并使在区间？，？的概率为P i?21，即我们有1001%的把握断定的真值在区间？内。是一个事先给定的一个小正数，1就是估计区间？，?2包括真值的概率，称为置信水平 (confidence level )、置信系数或置信度，常用的是0.01，0.05和0.1,所以常用的置信水平是99%, 95%和90%。估计区间？，?2称作参数在置信水平1-a的置信区间(con fide nee in terval ), ?为置信下限，?2为置信上限。置信水平、置信区间的关系如图6-2所示。置信区间置信水平1置信下限？点估计值置信上限？图6-2置信区间示意图需要注意的是

8、：置信区间是根据样本构造的，所以是一个随机区间，会根据样本的变化而变化，并不是所有的置信区间都包含真值。例如，用95%的置信水平得到北京城市大学全体学生英语成绩的置信区间为6585，意味着在100次抽样中，大概有 95次得到的置信区间包含了真值，有5次得到的置信区间不包含真值。假定全体学生英语成绩的平均数真值为70,则6585这个区间一定包含真值。假定全体学生英语成绩的平均数真值为60,则6585这个区间一定不包含真值。3 评价估计量优劣的标准既然统计量？仅是总体参数的一个估计量，它就不可能完全准确，而且总体某一参数的估计量可能不止一个，如样本平均数、样本中位数都可以用来估计总体平均数，

9、但并非所有的估计量都是优良，我们常用三条标准去衡量估计量的优劣。(1) 无偏性无偏性(unbiasednesS)是指估计量抽样分布的期望值等于被估计的总体参数。设？是总体参数的估计量，若E ? ，则称？是的无偏估计量。无偏性就是没有系统偏差，从平均意义上看，如果估计方法重复多次，则估计量的平均数就是总体参数。由样本均值的抽样分布可知，Ex,E s22 , E p2 2，因此x , s , p是，的无偏估计量。(2) 有效性有效性(efficiency )是指估计量的方差要尽可能小。所以，有效性是衡量离散程度的指标，若两个估计量都是无偏的，其中方差小的离散程度就小，其值更接近总体参数，

10、我们认为它更有效。(3) 致性一致性(consistency)指的是随着样本容量的增大，如果估计量越来越接近总体参数的真值，就称该估计量是一致估计量。一致性实际上是要求从一个大样本得到的估计量要比一个小样本得到的估计量更接近总体参数。6.1.3 个总体参数的区间估计一个总体参数的区间估计包括对总体平均数，总体方差 2，总体比例的估计。1 总体平均数的区间估计总体平均数的置信区间是由样本平均数加减估计误差得到。估计误差由两部分组成：-是点估计量的标准误差，它取决于样本统计量的抽样分布。二是置信水平为1-时，统计量分布两侧面积各为 2时的分位数值，它取决于事先所要求的可靠程度。(1) 大样本估

11、计2大样本n 30情况下，根据中心极限定理可知XN ,，样本平均数经标准化n后服从标准正态分布，即0,1若总体标准差已知，总体平均数在1-(6.1)置信水平下的置信区间为:Z2 n式中，X z 2是置信下限，X.nZ 2 是置信上限，nZ 2是标准正态分布两侧面积各为2时的z值,是标准误差，. nz 2 是估计误差。Un若总体标准差未知,替，总体平均数在1-置信水平下的置信区间为:(6.2)X z2 n(2) 小样本估计小样本n 30情况下，要求总体服从正态分布。若总体标准差已知，样本平均数经标准化后服从标准正态分布，总体平均数在1-置信水平下的置信区间仍是式(6.1)。若总体标准差未知，样本

12、平均数经标准化后服从自由度为n 1的t分布，即t -Xtn 1 ,s J n则总体平均数在1-置信水平下的置信区间是:(6.3)【例6-1】英语成绩.sav是北京城市大学 26名学生的期中和期末的英语考试成绩。请估计期中平均成绩的 95%的置信区间。(1) 观察数据样本量是 26所以采用小样本估计的方法。(2) 单击【分析】 t【均值比较】t【单样本T检验】，打开单样本T检验对话框。(3) 从左侧源变量窗口选择期中考试成绩(scorel)进入【检验变量】窗口。(4) 在【检验值】后面的窗口输入检验值0，如图6-3所示。图6-3单样本T检验对话框(5) 单击【选项】按钮，在【置信区间百分比】窗

13、口后面输入95%。单击【继续】，返回单样本T检验对话框。单击【确定】，提交运行。(6) 结果分析。在结果输出窗口得到表6-2。由表可知期中平均成绩 95%的置信区间是 59.700269.5306。表6-2单个样本检验检验值=0tdfSig.(双侧)均值差值差分的95%置信区间下限上限期中考试成绩27.07525.00064.6153859.700269.5306,方差为2 总体比例的区间估计大样本n 30条件下，样本比例 p服从期望值为E p正态分布，样本比例经标准化后服从标准正态分布,即：z N 0,1.1 n,总体比例的置信区间也是点估计量 p 古计误差得到的，则总体比例在1-置信水

14、平下的置信区间是:3.总体方差的区间估计假定总体服从正态分布，样本方差的抽样分布服从自由度为1 s2（6.4）n 1的2分布，即：（6.5）建立总体方差的置信区间，就是要满足 2 222，用式（6.5）来代替 2，有:(6.6)则总体方差置信水平下的置信区间是:2n 1 s221 s221 2(6.7)图6-4总结了一个总体参数估计所使用的分布的各种情形。待估参数总体平均数大样本|小样本Z分布正态分布Z分布总体方差已知总体方差未知图6-4一个总体参数估计所使用的分布2 n 1s21 26.1.4两个总体参数的区间估计两个总体参数的区间估计包括对两个总体平均数之差12 ，两个总体的比例之差12 ,两个总体的方差比12. 2的估计。1 .两个总体平均数之差的区间估计从两个总体平均数分别是 1和2的总体中分别抽取样本量是 n1和n2的两个随机样本，样本平均数分别是 X1和X2，则两个总体平均数之差 1 2的点估计量是两个样本均值之差X1 X2，两个总体平均数之差 1 2的置信区间是点估计量加减估计误差。（1）独立大样本估计若两个样本是从两个总体中独立抽取的，则一个样本与另一个样本相互独立，

展开阅读全文