研-统计3抽样误差t分布参数估计剖析

资源描述

《研-统计3抽样误差t分布参数估计剖析》由会员分享，可在线阅读，更多相关《研-统计3抽样误差t分布参数估计剖析（48页珍藏版）》请在金锄头文库上搜索。

1、均数的抽样误差，t分布，参数估计 Sampling error of mean，t-distribution，parameters estimation,张建军汕大医学院预防医学教研室 Tel: 0754-88900445 Email: zhangjj,主要内容,均数的抽样误差 t分布参数估计,概念：频数分布以均数为中心，左右两侧基本对称，靠近均数两侧频数较多，离均数愈远，频数愈少，形成一个中间多，两侧逐渐减少的对称分布。是一种连续型分布。又称高斯分布.,回顾：正态分布(normal distribution),正态分布用N(, )表示，其位置与均数有关，形状与标准差有关。医学现象许

2、多呈正态分布，或近似正态分布：如正常人的生理，生化指标变量，等,正态分布的密度函数：式中为均数；为标准差；为圆周率；为自然对数的底，即2.71828。以上均为常数，仅x为变量。,标准正态分布: 为了应用方便，常将式进行变量变换，即：u变换. 所得到的新变量u的分布即为标准正态分布。 u的含义：变量到均数间的距离相当于标准差的倍数。,标准正态分布的概率密度函数：,正态分布的特征和分布规律：（1）曲线在x轴的上方，与x轴不相交，当x=时，曲线位于最高点。 f(u=0)=0.3989 （2）曲线关于直线x=左右对称。（3）正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1 （4）正

3、态分布的面积分布有一定规律。,正态分布和标准正态分布曲线下面积分布规律,（-1，1），68.27%,（-1.96，1.96），95%,（-2.58，2.58），99%,双侧概率,单侧概率,请思考：,抽样？统计量？抽样分布？,一、均数的抽样误差和标准误,均数的抽样误差sampling error of mean 由于总体中存在个体变异，抽样研究中所抽取的样本，只包含总体中一部分个体，因而样本均数（或率）往往不等于总体均数（或率），样本均数之间也互不相等，这种由抽样引起的差异称为均数的抽样误差的体现。即：,如何估计抽样误差？标准误 standard error，SE 以样本均数为例： SE

4、越大，均数的抽样误差越大，样本均数与总体均数间的差异越大。,当样本例数一定时，样本均数的标准误与原始数据的标准差成正比；当标准差一定时，标准误与样本含量 n 的平方根成反比。增加样本含量可以减小抽样误差。与标准差的区别：标准差：表示一般个体值的离散程度；标准误：特别说明统计量的离散程度。,再思考一个问题：,其它的统计量有抽样误差吗？它们的计算公式怎样？,标准误的应用,1、用来衡量抽样误差的大小: 标准误越小，样本均数与总体均数越接近，样本均数的可信度越高； 2、结合标准正态分布与 t 分布曲线下的面积规律，估计总体均数的置信区间。 3、用于假设检验。,假定2003年汕头市15岁女学生

5、的身高服从均数155.4cm、标准差5.3cm的正态分布。用计算机做抽样模拟试验，从N(155.4, 5.32)的总体中，每次抽出10个数字（样本含量为10），组成一个样本，求出样本均数、样本标准差 S。再求得此100个样本均数的均数、样本均数的标准差。,抽样分布,样本均数的标准差是什么？,标准误,100个样本均数构成一个新的分布，也是正态分布。即使原分布为偏态分布，当样本含量足够大时，新分布也近似正态分布）。新分布的集中趋势用均数的均数来表示，离散趋势用标准误表示N( , ) 。各样本均数的均数等于总体均数。,正态总体中抽样（样本量5）,正态总体中抽样（样本量10）,正态总体中抽样（

6、样本量30）,抽样时样本量大小决定了样本均数分布的形状，当样本量足够大时，均数分布趋向正态分布。,二、t 分布（t-distribution),还记得吗？,u转换将正态分布转换为标准正态, N(0, 1)。同理：将样本均数的分布也可以转换为标准正态分布。即：,实际工作中，总体标准差往往未知，常用S代替计算标准误，因此：为了和u分布区别，就变为：,均数的分布也是这样,如果我们采用另一个正态变量: 于是，均数的分布变成了标准正态分布:,但是，条件发生了变化,我们通常用代替然而，随着样本量的变化而变化，所以，我们称之为 t-分布，虽然它是正态分布，但只有当样本量（自由度）无穷大的时候，

7、它才是标准正态分布，此时，u=t,t分布曲线,t分布是一簇对称于0的单峰分布曲线。自由度越小（相当于标准差大），曲线的中间越低，两边越高；随自由度增大， t分布曲线逐渐逼近于标准正态分布曲线。当自由度无穷大时， t分布就是标准正态分布曲线。每一条t分布曲线，都对应于相应的自由度。 t分布模拟试验,t分布曲线下的面积规律与标准正态曲线下的面积规律相似：在某一个自由度下，两侧外部总面积为5%的界限的t值称为t0.05/2(),把两侧外部总面积为1%的界限的t值称为t0.01/2()。因此，中部占95%面积的t值范围： t0.05/2()- t0.05/2(), 中部占99%面积的t值范

8、围： - t0.01/2()- t0.01/2()。,当自由度确定时，占一定面积的t界限值，可以查表得出。例如：查当自由度=20，两侧概率之和为0.05时，对应的t值： t0.05/2（20）=2.086，单侧概率为0.05时，对应的t值： t0.05（20）=1.725，,一般， t 0.05/2（v）1.96 ，t 0.01/2（v） 2.58 自由度越小，曲线越低平，t 比1.96，2.58大的多；自由度变大，t接近于1.96，2.58；自由度无穷大，t=1.96，2.58,使用t值表注意：同一自由度下, P越小，t值越大；P值相同时，自由度越大，t越小；当自由度无穷大时，t值与u

9、值相等。这也是u分布与t分布的区别。,t分布的主要应用：总体均数置信区间估计； t检验；,三、总体均数置信区间的估计,统计推断：参数估计，假设检验参数估计：点估计（point estimation):用样本统计量作为对总体参数的估计值() 。比如均数的估计。区间估计(interval estimation)：根据选定的置信度估计总体均数所在的区间（a b) . a, b 为置信限（可信限）。,置信度（confidence level): 在估计总体均数的置信区间时，如果可能估计错误的概率为，那么估计正确的概率为1- , 即为置信度. 常用: 95%, 99%. 置信区间（confid

10、ence interval, CI)根据置信度估计得到的区间，称为置信区间。,为何要进行区间估计？,点估计，即用样本均数来估计总体均数，简单易行，但未考虑抽样误差，而后者又是不可避免的。故常按照一定的概率估计总体均数在哪个范围。,如何进行区间估计？,1、总体标准差已知参照u分布， 95%置信区间： 99% 置信区间：,2、总体标准差未知，样本例数(50)足够大也可参考u分布进行 95%置信区间： 99%置信区间：,3、总体标准差未知，样本例数较小按t分布原理，依据自由度，查出某个概率相应的t界值，中部占95%面积的t值范围： - t0.05/2()_ t0.05/2(), 占99%面积

11、的t值范围： - t0.01/2()_ t0.01/2()进行估计。,因为： 95%的样本满足： 95%置信区间： 99%置信区间：,95%置信区间的意义：理论上，用一次抽样所得的样本均数估计总体均数，犯错误的概率为5%. 或进行100次抽样，可算得100个置信区间，平均有95个置信区间包括客观存在的总体均数，只有5个置信区间未包括总体均数。,估计置信区间的注意事项：（1）区间是以上、下可信限为界的一个范围。通常用表示置信限，用表示置信区间,（2）置信区间与正常值范围： 95%正常值范围一般是指同质总体内包括95%个体值的估计范围，若总体为正态分布，常用：计算； 95%置信区间是指按照95%置信度估计的总体参数的可能范围，常按照下式计算。前者用标准差，后者用标准误。,以上是均数抽样误差的相关内容。这是针对某个总体进行的参数估计，对多个总体的参数推断又是什么呢？且听下回！,谢谢,

展开阅读全文