6.概率分布及总体平均数的推断

资源描述

《6.概率分布及总体平均数的推断》由会员分享，可在线阅读，更多相关《6.概率分布及总体平均数的推断（61页珍藏版）》请在金锄头文库上搜索。

1、p 理解抽样分布的意义 p 了解抽样分布的形成过程 p 平均数抽样分布的定理 p 样本平均数与总体平均数离差统计量的形态 p 总体平均数的估计 p 假设检验的基本原理 p 总体平均数的显著性检验第六章抽样分布及总体平均数的推断一、分布的类型o 总体分布：总体内个体数值的频数分布。o 样本分布：样本内个体数值的频数分布。o 抽样分布：某一样本统计量的概率分布。频率分布与概率分布的区别经验分布：频率分布是经资料整理而来; 频率分布随样本不同而不同; 频率分布有对应的频数分布。理论分布：概率分布是先验的；概率分布是唯一的；概率分布无频率分布所对应的频数分布。p样本统计量的概率

2、分布，是一种理论分布在重复选取容量为n的样本时，由该统计量的所有可能取值形成的相对频数分布。 p结果来自容量相同的所有可能样本p提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据二、抽样分布(sampling distribution)抽样样分布的形成过过程总体总体计算样本统计计算样本统计量量如：样本均值如：样本均值、比例、方差、比例、方差样样本本1. 概念p在重复选取容量为n的样本时，由样本均值的所有可能取值形成的相对频数分布p一种理论概率分布p推断总体均值的理论基础三、样样本均值值的抽样样分布例题题分析例：例：设一个总体，含有设一个总体，含有4

3、 4个元素个元素( (个体个体) ) ，即总体单，即总体单位数位数N N=4=4。4 4 个个体分别为个个体分别为x x1 1=1=1，x x2 2=2=2，x x3 3=3=3，x x4 4=4 =4 。总体的均值、方差及分布如下。总体的均值、方差及分布如下总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差现从总体中抽取现从总体中抽取n n2 2的简单随机样本，在重复抽的简单随机样本，在重复抽样条件下，共有样条件下，共有4 42 2=16=16个样本。所有样本的结果为个样本。所有样本的结果为3,43,33,23,132,42,32,22,124,

4、44,34,24,141,441,33211,21,11第二个观察值第一个观察值所有可能的n = 2 的样本（共16个）计算出各样本的均值，如下表。并给出样本均值计算出各样本的均值，如下表。并给出样本均值的抽样分布的抽样分布3.53.02.52.033.02.52.01.524.03.53.02.542.542.03211.51.01第二个观察值第一个观察值16个样本的均值（x）x x样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P ( ( x x ) )1.51.53.03.04.04.03.53.52.02.02.52.5 = 2.5

5、 = 2.5 2 2 =1.25=1.25总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布P P ( ( x x ) )1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02.52.5x x2. 中心极限定理 = 50= 50 =10=10X X总体分布总体分布n n = 4 = 4抽样分布抽样分布xn n =16 =16pp 当总体服从正态分布当总体服从正态分布N N( ( , , 2 2) )时，来自该总体的所有时，来自该总体的所有容量为容量为n n的样本的均值的样本的均值 x x也服从正态分布，也服

6、从正态分布， x x 的数学的数学期望为期望为，方差为，方差为 2 2/ /n n。即。即 x xN N( ( , , 2 2/ /n n) )当样本容量足当样本容量足够大时够大时( (n n 30) 30) ，样本均，样本均值的抽样分布值的抽样分布逐渐趋于正态逐渐趋于正态分布分布中心极限定理：中心极限定理：设从均值为设从均值为，方差为，方差为 2 2的一个任意总的一个任意总体中抽取容量为体中抽取容量为n n的样本，当的样本，当n n充分大时，样本均值的抽充分大时，样本均值的抽样分布近似服从均值为样分布近似服从均值为、方差为、方差为 2 2/ /n n的正态分布的正态分布一

7、个任意分一个任意分布的总体布的总体x x3. 抽样分布与总体分布的关系总体分布总体分布正态分布正态分布非正态分布非正态分布大样本大样本小样本小样本正态分布正态分布正态分布正态分布非正态分布非正态分布p样本均值的数学期望p样本均值的方差n 重复抽样n 不重复抽样4. 4. 样本均值抽样分布的数学期望与方差样本均值抽样分布的数学期望与方差比较及结论：比较及结论：1. 1. 样本均值的均值样本均值的均值( (数学期望数学期望) ) 等于总体均值等于总体均值2. 2. 样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/n n例题o 假设有一所大学声称它近期的毕业生所挣的平均年收入为3

8、0000元。我们有理由对这个声称的真实性提出质疑，从而决定通过一个最近两年毕业的校友的随机样本来检验它。在这个过程中，我们得到的样本均值只有28200元。我们现在要问：如果实际的总体均值真的为30000元，我们有多大的可能性获得一个均值小于或等于28200元的样本呢？这所大学的说法是真的吗？（假设抽样分布的标准差为 800元）5. 标准误 (standard error) 1.样本统计量的抽样分布的标准差，称为统计量的标准误，也称为标准误差，也称抽样标准差。 2.标准误衡量的是统计量的离散程度，它测度了用样本统计量估计总体参数的精确程度。 3.以样本均值的抽样分布为例，在重复抽

9、样条件下，样本均值的标准误为4. 标准差的英文为：standard deviation6. 总体标准差的无偏估计量p 总体标准差在一般情况下是未知的，它需要用样本标准差来估计。7. 平均数标准误的估计值1. 当计算标准误时涉及的总体参数未知时，用估计量S来代替，于是在重复抽样条件下，样本平均数标准误的估计值为练习o 1、标准化的智商测验的总体均值为100，总体标准差为15.如果抽取一个规模为10的样本，求样本均值的标准误。 o 2、假设一个呈正态分布的标准化成就测验的总体标准差为7.2。如果我们抽取一个16个成绩的样本，样本均值的标准误是多少？练习o 3、下面的样本是3

10、0名被调查者在一个七点式量表的得分，用来测量对一个极端组织是否应该被允许举行游行（1=强烈反对，7=强烈赞成）的态度，请估计其均值的标准误？ o 3 5 1 4 3 3 6 6 2 3 3 1 1 2 2 1 5 2 1 3 4 3 1 4 5 2 2 3 3 4练习o 3、下面的样本是30名被调查者在一个七点式量表的得分，用来测量对一个极端组织是否应该被允许举行游行（1=强烈反对，7=强烈赞成）的态度，请估计其均值的标准误？ o 3 5 1 4 3 3 6 6 2 3 3 1 1 2 2 1 5 2 1 3 4 3 1 4 5 2 2 3 3 48. 样本平均数与总体平均数离

11、差统计量的形态o 当总体标准差已知时，一切可能样本平均数与总体平均数的离差统计量呈标准正态分布。8. 样本平均数与总体平均数离差统计量的形态o 当总体标准差未知时，一切可能样本平均数与总体平均数的离差统计量用t表示，呈t分布。1 定义：由小样本统计量形成的概率分布。 2 t分布的特点o t分布是对称分布。平均数位于曲线中央，在这一点上有一个单峰，从中央向两侧逐渐下降，尾部无限延长，但不与基线相交。o 分布曲线的形状易变，曲线不是一条而是一族，其曲线形状随着样本容量即随自由度的大小而有规律地变动。t分布t分布o 当n时，分布曲线以标准正态曲线为极限，即呈正态分布。通常把自由度较大的

12、t分布当作正态分布来处理。当n逐渐减少时，分布的离散程度逐渐增大，曲线逐渐与标准正态分离；其峰顶逐渐下降，尾部抬高。o t分布的值及对应的概率值（p）是根据自由度的大小由理论模型推导出来的，构成t分布临界值。 o t分布的自由度df=n1。标准正态分布与t分布图图标准正态分布与t分布t分布表中的概率图 df=20时t分布的双侧概率四、参数估计参数估计在统计方法中的地位参数估计假设检验o 统计方法描述统计推断统计定义当总体参数不清楚时，用一个特定值（一般常用样本统计量）进行估计，这类问题就是点估计。统计量为数轴上某一点值，所以称为点估计。 n 例如：用样本均值直接作为总体均值的

13、估计 n 例如：用两个样本均值之差直接作为总体均值之差的估计（一）点估计（1）无偏性。指如果用多个样本的统计量作为总体参数的估计值时，有的偏大，有的偏小，而偏差的平均数为0，这时，这个统计量就是无偏估计量。如果用某个统计量估计总体的误差平均数大于0或小于0，这个统计量就是有偏统计量。总体参数的良好估计值，应具备无偏性。（2）一致性。所谓一致性是指当样本容量无限增大时，估计值应能越来越接近它所估计的总体参数。（3）有效性。是指当总体参数的无偏估计不止一个统计量时，无偏估计变异性小者有效性高，变异大者有效性低。标准缺点：没有给出估计值接近总体参数程度的信息。（二）区间估计区间估

14、计是用数轴上的一段距离表示未知参数可能落入的范围，它虽不具体指出总体参数等于什么，但能指出总体的未知参数落入某一区间的概率有多大。根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量。 n比如，某班级平均分数在7585之间，置信水平是.95样本统计量样本统计量 ( (点估计点估计) )置信区间置信区间置信下限置信下限置信上限置信上限1. 由样本统计量所构造的总体参数的估计区间称为置信区间； 2. 统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间； 3. 用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的

15、区间是否包含总体参数的真值； n我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个。相关概念：置信区间置信区间 (95%的置信区间)重复构造出重复构造出的的2020个个置信区间置信区间点估计值点估计值统计分析中一般规定：正确估计的概率，也即置信水平为.95或.99，那么显著性水平则为.05或.01，这是依据.05 或.01属于小概率事件，而小概率事件在一次抽样中是不可能出现的原理规定的。置信度：又称显著性水平，意义阶段，信任系数等，是指估计总体参数落在某一区间时，可能犯错误的概率，用符号表示。（0.05Z*、0.01 Z* 、0.001 Z* ）置信区间：或称置信间距，是指在某一置信度时，总体参数所在的区域距离或区域长度。相关概念：置信水平、置信度、置信区间区间估计的具体步骤确定样本平均数的分布形态Z或T；计算样本分布的标准误；查表确定置信度；计算一定置信度前提下的置信区间o 假定条件 n 总体服从正态分布 n 如果不是正态分布，可由正态分布来近似 (n30) 2. 使用正态分布统计量 zpp 总体均值总体均值在在1-1- 置信水平下的置信水平下的置信区间为置信区间为（三）总体均值的区间估计1. 总体方差已知条件下的总体平均数的区间估计练习：有一个49名学生的班级，某学科历年考试

展开阅读全文