假设检验二项分布与正态分布

资源描述

《假设检验二项分布与正态分布》由会员分享，可在线阅读，更多相关《假设检验二项分布与正态分布（5页珍藏版）》请在金锄头文库上搜索。

1、第七章假设检验有了概率和概率分布的知识，接下来我们要逐步掌握统计检验的一般步骤。既然按照数学规则得到的概率都不能用经验方法准确求得，于是，理论概率和经验得到的频率之间肯定存在某种差别，这就引出了实践检验理论的问题。第一节二项分布二项分布是从著名的贝努里试验中推导而来。所谓贝努里试验，是指只有两种可能结果的随机试验。每当情况如同贝努里试验，是在相同的条件下重复n次，考虑的是“成功”的概率，且各次试验相互独立，就可利用与二项分布有关的统计检验。虽然许多分布较之二项分布更实用，但二项分布简单明了，况且其他概率分布的使用和计算逻辑与之相同。所以要理解统计检验以及它所涉及的许多新概念，人们几乎都乐意

2、从二项分布的讨论入手。1.二项分布的数学形式二项试验中随机变量X的概率分布，即P(X=x)pxqn-x 。 (73) 2二项分布的讨论(1)二项分布为离散型随机变量的分布。 (2)二项分布的图形当p05时是对称的，当p 05时是非对称的，而当n愈大时非对称性愈不明显。 (3)二项分布的数学期望E(X)np，变异数D(X)2npq。 (4)二项分布受成功事件概率p和试验次数n两个参数变化的影响，只要确定了p和n，成功次数x的概率分布也随之确定。因而，二项分布还可简写作B(x；n，p)。 (5)二项分布的概率值除了根据公式直接进行计算外，还可查表求得。第二节统计检验的基本步骤概率分布不是一种

3、研究者从资料中看到的分布，我们讨论它，不是出于对数学的爱好，而是因为统计推论的有关工作需要它。所有的统计检验都包含某些特定的步骤：(1)建立假设；(2)求抽样分布（所谓抽样分布，就是把具体概率数值赋予样本每个或每组结果的概率分布）；(3)选择显著性水平和否定域；(4)计算检验统计量；(5)判定。 1建立假设统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结果，依据描述性统计的方法就足够了。抽样分布则不然，它无法从资料中得到，非利用概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设，这项工作将无法进行。2求抽样分布在做了必要的假设之后，我们就能用数学推理过程来求抽样分布

4、了。由于数学上已经取得的成果，实际上统计工作者要做的这项工作往往并不是真的去求抽样分布的数学形式，而是根据具体需要，确定特定问题的统计检验应该采用哪种分布的数学用表。 3选择显著性水平和否定域有了与问题相关的抽样分布，我们便可以把所有可能的结果分成两类：一类是不大可能的结果；另一类人们预料这些结果很可能发生。既然如此，如果我们在一次实际抽样中得到的结果恰好属于第一类，我们就有理由对概率分布的前提假设产生怀疑。在统计检验中，这些不大可能的结果称为否定域。如果这类结果真的发生了，我们将否定假设；反之就不否定假设。概率分布的具体形式是由假设决定的，假设肯定不止一个。在统计检验中，通常把被检验的那个

5、假设称为零假设(或称原假设，用符号H0表示)，并用它和其他备择假设(用符号H1表示)相对比。值得注意的是，假设只能被检验，从来不能加以证明。统计检验可以帮助我们否定一个假设，却不能帮助我们肯定一个假设。为了使检验更严格、更科学，还需要更多的东西。首先，我们必须确定甘冒犯第一类和第二类错误的风险的程度；其次，要确定否定域是否要包含抽样分布的两端。第一类错误是，零假设H0实际上是正确的，却被否定了。第二类错误则是，H0实际上是错的，却没有被否定。第二类错误是，零假设H0实际上是错误的，却没有被否定。遗憾的是，不管我们如何选择否定域，都不可能完全避免第一类错误和第二类错误，也不可能同时把犯两类错误的

6、危险压缩到最小。对任何一个给定的检验而言，第一类错误的危险越小，第二类错误的概率就越大；反之亦然。一般来讲，不可能具体估计出第二类错误的概率值。第一类错误则不然，犯第一类错误的概率是否定域内各种结果的概率之和。由于犯第一类错误的危险和犯第二类错误的危险呈相背趋向，所以统计检验时，我们必须事先在甘冒多大第一类错误的风险和多大第二类错误的风险之间作出权衡。被我们事先选定的可以犯第一类错误的概率，叫做检验的显著性水平(用表示)，它决定了否定域的大小。如果抽样分布是连续的，否定域可以建立在想要建立的任何水平上，否定域的大小可以和显著性水平的要求一致起来（后面的正态检验就如此）。如果抽样分布是非连续的，

7、就要用累计概率的方法找出一组构成否定域的结果。即在已知概率分布表上，从两端可能性最小的概率开始向中心累计，直至概率之和略小于选定的显著性水平为止。在许多场合，我们能预测偏差的方向，或只对一个方向的偏差感兴趣。每当方向能被预测的时候，在同样显著性水平的条件下，单侧检验比双侧检验更合适。因为否定域被集中到抽样分布更合适的一侧，可以得到一个比较大的尾端。这样做，可以在犯第一类错误的危险不变的情况下，减少了犯第二类错误的危险。4计算检验统计量完成了上述工作之后，接下来就是做一次与理想试验尽量相同的实际抽样(比如实际做一次重复抛掷硬币的试验)，并从获取的样本资料算出检验统计量。检验统计量是关于样本的一

8、个综合指标，但与第九章参数估计中将要讨论的统计量有所不同，它不用作估测，而只用作检验。 5判定假设检验系指拒绝或保留零假设的判断，又称显著性检定。在选择否定域并计算检验统计量之后，我们完成最后一道手续，即根据试验或样本结果决定假设的取与舍。如果结果落在否定域内，我们将在已知犯第一类错误概率的条件下，否定零假设。反之，如果结果落在否定域外，则不否定零假设，与此同时，我们就有了犯第二类错误的危险。第三节正态分布如果说二项分布是离散型随机变量最具典型意义的概率分布，那么连续型随机变量最具典型意义的概率分布就是正态分布了。这是因为：许多自然现象与社会现象，都可用正态分布加以叙述；不少离散型随机变

9、量与连续型随机变量的概率分布都以正态分布为其极限（即当样本相当大时，可用正态近似法解决这些概率分布的问题）；许多统计量的抽样分布呈正态分布，故在参数估计与假设检验上经常以正态分布为理论基础。 1正态分布的数学形式正态分布的概率密度表达为：(Xx)。正态曲线具有下列性质： (1)正态曲线以X呈钟形对称，其均值、中位数和众数三者必定相等。(2) (Xx)在X处取极大值。X离越远，(Xx)值越小。(3)对于固定的值，不同均值的正态曲线的外形完全相同，差别只在于曲线在横轴方向上整体平移了一个位置(参见图73)。 (4)对于固定的值，改变值，值越小，正态曲线越陡峭；值越大，正态曲线越低平(参见图74)

10、。 (5)正态分布的数学期望E(X)，变异数D(X)2。 2标准正态分布引入新的随机变量Z，我们便得到了用Z分数表达的标准正态分布，其概率密度为(Z)。标准正态变量的数学期望E(Z)0，变异数(即方差)D(Z)1。实际上，标准正态分布(Z)只是正态分布的一个特例，即0，21的正态分布，简记作N(0，1)。对于一般正态分布则简记为N(，2)。 3正态曲线下的面积有了正态分布的概率密度(75)式，随机变量X的取值在某区间x1Xx2上的概率便可用下式求得 P(x1Xx2 )但积分毕竟太麻烦了，更何况许多人对积分运算不熟悉，为此须计算出现成的数值表供使用者查找。由于正态曲线的优良性质，这项工作可以卓有

11、成效地完成：经过X的标准分Z，可以将任何正态分布N(，2)转换成标准正态分布N(0，1)；运用分布函数的定义，并利用正态曲线的对称性，通过下式（分布函数）可以计算编制出正态分布表(见附表4)。 F(Z)P（0ZZ） 4二项分布的正态近似法二项分布是以正态分布为极限的。所以当n很大时，只要p或q不近于零，我们就可以用正态近似来解决二项分布的计算问题，即 P(Z1ZZ2)d z 又 Z 第四节中心极限定理 1抽样分布统计的学习进入到推论统计阶段，我们就必须同时与三种不同的分布概念打交道，即总体分布、样本分布、抽样分布。已知一总体分布，可求得它的特征值。根据总体分布计算的特征值，即根据总体各个单

12、位标志值计算的统计指标，在推论统计中称为总体参数。总体均值和总体标准差(或方差)是反映总体分布特征最重要的两个总体参数，习惯上分别记作和(或2)。同理，已知一样本分布可求得它的特征值。根据样本分布计算特征值，即根据样本各个单位标志值计算的统计指标，在推论统计中称为统计量。样本均值和样本标准差(或方差)是反映样本分布特征最重要的两个统计量，习惯上分别记作和S(或S 2)。将总体均值、总体标准差与样本均值、样本标准差加以区别是很必要的。因为总体参数和统计量之间存在着重要差别。参数是有关总体的固定值，一般都是未知的。由于统计量是随机变量，并且在一个统计总体中可以重复抽取的样本在理论上是无数的，

13、所以可以用概率分布来进行描述。本书在引出总体分布、样本分布的概念之后，又引出了抽样分布的概念。需要再次强调，抽样分布是运用数理统计的方法，把具体概率赋予样本的所有可能结果的一种理论分布。但有了抽样分布对概率分布的具体化，研究者便找到了一种理论与实际相联系的有效途径。2中心极限定理概率论中用来阐明大量随机现象平均结果的稳定性的定理，是著名的大数定理。其具体内容是：频率稳定于概率，平均值稳定于期望值。但是，大量随机现象的稳定性不仅表现在平均结果上，同时也表现在分布上，这就是中心极限定理所要阐明的内容。仔细考虑统计量和与之相对应的未知参数的接近程度，引出了研究和应用抽样分布的课题。显然，推论统计需

14、要有一座能够架通抽样调查和抽样分布的桥梁。中心极限定理告诉我们：如果从任何一个具有均值和方差2的总体(可以具有任何形式)中重复抽取容量为n的随机样本，那么当n变得很大时，样本均值的抽样分布接近正态，并具有均值和方差。统计检验应用正态分布和二项分布有两点区别：抽样分布在这里是连续的而非离散的，否定域的大小可以和显著性水平的要求精确地一致起来。计算检验统计量不再像在应用二项分布时那样，可以不劳而获了。很显然，为了能使用现成的正态分布表，关键是要从样本资料中计算出在N(0，1)形式下的统计量Z，再根据Z是否落在否定城内而对被检验假设的取舍作出决定。注意：在正态检验对于的抽样分布中，随机变量的取值是每个，均值是，标准差是。因此，Z如果作为检验统计量，要用替换X，用替换，不动，即 Z。第五节总体均值和成数的单样本检验1 已知，对总体均值的检验检验统计量是Z。 2学生t分布(小样本总体均值的检验)当n较小时，检验统计量是t 。 3关于总体成数的检验成数的检验统计量是Z。成数检验与二项检验的联系是不言而愈的。因为在二项检验中，随机变量是样本的“

展开阅读全文

假设检验二项分布与正态分布

最新文档